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(57)Abrege* 

La presente invention conceme une nouvelle deTensine polypeptidique humaine Def-X, homologue de THNP-4, son ADN g6nomique 
et ADNc, des vecteurs, des cellules transformers par lesdits vecteurs, Tutilisation dudit polypeptide comme agent antibiotique, cytotoxique, 
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DEFENSINE HUMAINE DEF-X, GENE ET cDNA, COMPOSITION LES CONTENANT ET APPLICATIONS AU 
DIAGNOSTIC ET A LA THERAPBE 

4. * 

La prescntc invention conccrnc unc nouvcllc defensine polypcplidiquc 
5 humainc Dcf-X, homologuc de PHNIM; son ADN genomique ct ADNc. 

L'invcntion conccrnc cgalcmcnt des vectcurs dc clonagc ct d'exprcssion, des 
cellules transformecs par lesdits vectcurs. LMnvention a aussi pour objet Tutilisation 
desdits polypeptides comme agent antibiotique, cytotoxique, de reparation ct de 
regulation endocrine ou comme pesticide ainsi que des compositions cosmetiques on 
10 pharmaceutiques pour le traitement des infections microbiennes, notamment 
bacteriennes, fongiques, et virales, ou parasitaires, de cancers, de Tinflammation et de 
deficit immunitaire. Enfm, Tinvention comprend des methodes et des kits de diagnostic 
pour la determination d'une infection microbienne ou parasitaire et d'unc inflammation, 
ou pour le depistage de predisposition a des deficiences immunitaires ou des maladies 
15 cancereuses. 

Les substances antimicrobiennes sont des elements primordiaux de la 
defense des organismes multicellulaires. Parmi ces substances, on trouve aussi bicn des 
composes inorganiques simples (pcroxyde d'hydrogene, acidc hypochlorcux, oxydc 
nitrique) que des peptides et prolines complexes, lis sont presents sur les premieres 
20 ligncs de defense, a la surface des muqueuses de differcnts organes, notamment dans les 
cellules epitheliales de Tintestin et des poumbns, selon les especes, ainsi que dans les 
organelles microbicides des cellules phagocytaires d f origine hematopo'ietique, ou ils 
furent tout d'abord mis en Evidence. Leur synthese de novo ou leur liberation a partir dc 
sites de stockage - organelles de type lysosomes, granules cytoplasmiques, capables de 
25 les stacker sous une forme inactive ou latente - peuvent etre induites rapidement, ce qui 
les rend particulierement importants dans les phases pricoces de resistance aux 
infections (Martin et al., 1995). 

Les proteines antimicrobiennes d'une taille inferieure a cent acides amines 
sont arbitrairement appelees peptides antimicrobiens. Plusieurs families de peptides 
30 antimicrobiens ont ete identifies, qui different quant k la presence en leur sein de ponts 
disulfides, quant a leur composition en acides amines, i leur conformation structure! le et 
i leur spectre d'activite. Les peptides antimicrobiens comportant six cysteines 
conservees forment la famille des defensines. Cette famille est composee de peptides 
antimicrobiens presents dans de nombreuses especes, abondants, d'environ 3-4 kDa 
35 (Ganz et Lehrer, 1994). Ces peptides sont formes de 30 a 40 acides amines, dont six 
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cysteines invariantes qui forment trois liens disulfides intramcleculaires. lis ont unc 
conformation complexe, sont amphipathiques, riches en fcuiilets beta anti-paralleles, 
mais depourvus d'hdlices alpha (Lchrer ct Ganz, 1992). faction antimicrobienne des 
ddfensincs rdsultcrait dc leur insertion dans les membranes des cellules ciblcs, 
5 permettant la formation dc canaux voltage-dependants. White ct al. (1995) decrivent les 
mecanismcs possibles d 1 insertion mcmbranairc ct dc formation dc pores multimcriques 
par les defensincs, qui pcrmettent la pcrm&ibilisation des membranes des cellules cibles, 
par exemple des cellules microbiennes ou tumoralcs. La structure cristallographiquc dc 
la defensine humaine de neutrophil HNP-3 (voir ci-dessous) a ete determinee, ct un 
10 mecanisme particulier de dimerisation des defensincs humaines de neutrophil^ est en 
outre suggere. La connaissance elargie de cette famille de peptides et la comparaison de 
leurs sequences et spectres d'activite permettront de mieux comprendre ces mecanismes 
et leurs specificites, ainsi que les residus acides amines plus particulierement impliques 
dans ces phenomenes. 

15 Les defensines se repartissent en trois families de peptides, structurellement 

differents : les defensines "classiqucs", les beta-defensines et les defensines des insectes. 
Ces families presentent des differences conccrnant la position et 1'espaccmcnt des 
residus cysteines conserves, ainsi que ccux d'autrcs acides amines conserves (proline, 
glycine) (Ganz et Lehrer, 1995). 

20 Les defensines humaines, dc type classique, proviennent essentiellcmcnt de 

deux sources. Elles ont d'abord ete identifiees par purification peptidique a partir 
d'extraits de neutrophils. Quatre defensines ont ainsi ete isolees: "human neutrophil 
peptides M HNP-1, HNP-2, HNP-3, et HNP-4. Les trois premieres sont des produits 
differents du meme gene (Ganz et Lehrer, 1995). Ces trois peptides representent 99 % 

25 du contenu des neutrophils en defensines, alors que HNP-4 y est aussi present, mais a 
des concentrations 100 fois plus faibles. Plus recemment, deux defensines enteriques 
humaines, HD-5 et HD-6, ont 6te caracterisees dans Tintestin grele et plus precisement 
dans les cellules de Paneth (Bevins et al., 1996). Mors que 16 genes de defensines 
enteriques ont ete mis en evidence chez la souris, seuls ces deux homologues ont etc 

30 identifies chez Thomme (Mallow et al., 1996), 

Les defensines ont une action antimicrobienne sur un large spectre dc 
microorganismes in vitro (Martin et al., 1995). Ce spectre d'action, particulierement 
large, comprend des bacteries, Gram-positives et Gram-negatives, plusieurs 
champignons, des mycobacteries, des parasites dont les spirochetes et plusieurs virus a 
35 enveloppe dont les virus HSV et HIV. Elles sont egalement cytotoxiques pour plusieurs 
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categories de cellules normales et malignes, dont les cellules resistantes au TNF-alpha et 
au facteur cytolytique NK (Kagan et al. t 1994). La grandc quantite dc cibles des 
defensines et leur abondancc dans les cellules sanguines specialises dans la defense 
immunitaire, ainsi que l'augmcntation dramattquc de leur concentration au cours; 
5 defections sdv^rcs, suggirent que ccs molecules joucraicnt un role important dans 
l'immunitc naturellc aux infections et aux cancers. Notammcnt, -raugmentation.de la 
transcription des genes des defensines et la liberation dc granules cytoplasmiques 
contenant des defensines prt-synthctisees en reponse a des stimuli, contribuent a la 
reponse antimicrobienne locale, les defensines pouvant participer a la reaction 

10 d'inflammation, aux processus de reparation et a la regulation endocrine pendant 
rinfection. Les defensines hematopoietiques pourraient contribuer au phenomene de lyse 
des cellules cancereuses, phdnomene medie par les neutrophils au cours de la reponse 
immunitaire anticorps-dependante. Le role physiologique precis des defensines 
enteriques n'est pas clairement etabli. Elles pourraient endiguer la proliferation de la 

15 flore intraluminale ou empecher la translocation de bacteries a travers la muqueuse 
intestinale (Mallow et al.. 1996). L'abondance de TARNm de defensine dans les cellules 
de Paneth renforce Thypothese que ces cellules epithelialcs joueraient un role clc dans la 
defense immunitaire dc Tintestin. II a par ailleurs etc montre que leur schema 
depression coincide avec Tapparition des cellules de Paneth au cours dc 

20 Tembryogenese. Mallow et al. (1996) ont suggcrc que dc faibles taux d'exprcssion dc 
defensines enteriques chez le foetus serait le temoin d'unc immaturite de la defense 
locale, ce qui predispbserait les enfants nes prematuremcnt a des infections dues aux 
microorganismes intestinaux. 

Une concentration des defensines correspondant a 10 % du taux normal est 

25 constatee chez des patients atteints de "specific granule deficiency", une maladie rare du 
d6veloppement des granulocytes. Les sujets atteints soufTrent defections frequentes, 
provoqu^es par des bacteries communes (Ganz et Lehrer, 1995). 

: Les ddfensines modifiees biochimiquement sont de potentiels agents 
prophylactiques et th^rapeutiques contre les infections (Ganz et Lehrer t 1995). La 

30 recherche concernant ces peptides antimicrobiens ou d'autres molecules participant de 
l'immunit6 naturelle, acquiert une importance particuliere depuis que se developpent des 
phenomenes de resistance des microorganismes aux antibiotiques traditionnels (Bcvins 
et al., 1996). 

La structure primaire de defensines, notamment des defensines humaines, a 
35 fait Tobjet d'etudes recentes (White et al., ,1995 ; Mallow et al., 1996). Les defensines 
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classiques comprennent 29 a 35 acides amines, mais deriyent de precurseurs - 
pr^proproteines - comprenant 90 a 100 acides amines. La maturation proteolytique. des 
defensines humaines de ncutrophilcs en peptides matures est couplec avec leur adrcssagc 
vers les granulocytes ; la fonction du propeptide inclurait reactivation de la forme 
5 prccurseur de la defensine ct un support i P acquisition de la conformation active du 
peptide mature (Martin ct al., 1995). Les homologies peptidiques sont maximalcs au 
niveau des signaux peptides, ct minimalcs au niveau des peptides matures, qui 
component neanmoins six r^sidus cysteines totalement conserves. Si la conservation de 
ces residus semble necessaire a Tacquisition de structures sccondaires impliquees dans 

10 TactivitS des defensines, les differences de sequences existant au sein de la tres large 
famille de ces peptides antimicrobiens, notamment a leur extremite N-terminale, mais 
aussi dans d'autres regions non conservees, semblent etre des determinants importarits 
de leur spectre d'activite, et de leur efficacite antimicrobienne ou cytotoxique. 
L' identification de nouveaux membres de cette famille de peptides, et notamment de 

15 defensines humaines, est done necessaire a la comprehension de leur mecanisme 
d'action et de leur specificite, ainsi qu'a leur utilisation comme agents anti-infectieux 
et/ou cytotoxiques, ou au dessin de peptides variants pr&entant des spectres spceifiqucs 
et/ou d'efficacite diminuee ou augmentee. 

Sparkes et al. (1989), ont localise le gene codant pour HNP-1 sur le 

20 chromosome 8, dans la region 8p23, Bcvins ct al. (1995), ct Mallow et al. (1996), ont 
localise les deux genes codant pour HD-5 et HD-6 sur le chromosome 8, plus 
pr&nsement dans la region 8p21-pter, region incluant la region precedemment identifiee 
comme portant les defensines hematopoietiques. Les genes codant pour jes defensines 
enteriques humaines HD-5 et HD-6 contiennent deux exons, alors que ceux codant pour 

25 les defensines hematopoietiques en contiennent trois, les deux derniers exons codant 
pour le pr6propeptide, aussi bien chez Thomme, que chez le cobaye et le lapin (Mallow 
et al., 1996). La comparaison des sequences genomiques des genes HD-5 et HD-6 a 
r6v61e une tres forte similarite des sequences flanquantes non codantes en 5', suggerant 
que celles-ci contiennent Tinformation necessaire a la tissu-specificite de Texpression de 

30 ces genes; ces memes regions portent en outre de nombreux sites de fixation pour des 
facteurs de transcription, dont deux sites AP2 et six sites 1L6, suggerant des voies de 
regulation de Texpression de ces genes au cours des processus inflammatoires. De fa$on 
plus generale, le tres important degre de similarite des sequences et de l'organisation 
genomique des defensines HNP-1, 2, 3, 4 et HD-5 et 6, a conduit Bevins et al. (1995) a 
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un modcle devolution tentant de relater 1'organisation chromosomique de la famille, et 
les fractions homologues dc chaque paire dc genes. 

II est enfin intcressanl .de notcr que la region chromosomique 8p23 est 
impliquec dans dc nombrcuses pathologies, notammcnt cancercuscs : on citcra par 
5 excmplc lc carcinomc hepatoccllulairc (Becker ct al., 1996), le cancer du poumon non a 
petitcs cellules (Sundarcshan ct Augustus, 1996), le cancer de la prostate (Ichikawa et 
al. t 1996), ct lc carcinomc colorectal (Yaremko ct al.,. 1994). Bien que ccci n'ait jamais 
6te documente, il est possible qu'une deficience en Tune ou I'autrc des ddfensincs 
humaincs ait un role dans la predisposition a dc tclles pathologies, ou dans leur 
10 d6veloppement. 

La presente invention concerne unc nouvellc defensinc humainc, Def-X, 
homologue dc la defensine HNP-4. 

La presente invention a done pour objet un polypeptide isole choisi parmi les 
polypeptides suivants : 
1 5 a) polypeptide dont la sequence d'acides amines est la sequence SEQ ID N° 3 ; 

b) polypeptide homologue, variant, ou modifie du polypeptide dont la sequence 
d'acides amines est la sequence SEQ ID N° 3 ; 

c) polypeptide dont la sequence d'acides amines est la sequence d'acides amines d'un 
fragment biologiquemcnt actif d'un polypeptide tel que defini en a) ou b) ; 

20 d) polypeptide comprenarit au moins un fragment tel que defini en c). 

Dans la presente description, on entendra designer cgalcment par 
« polypeptide » une proteine ou un peptide, 

Selon un mode prefere, le polypeptide selon Tinvention est caracterise en ce 
qu'il est constitu^ de Tun au moins des fragments suivants : 
25 a) peptide signal dont la sequence d'acides amines est la sequence SEQ ID N° 4, 
correspondant a la sequence comprise entre la position 1 et la position 19, 
extremites comprises, de la sequence d'acides amines SEQ ID N° 3 ; 

b) region pro dont la sequence d'acides amines est la sequence SEQ ID N° 5, 
correspondant a la sequence comprise entre la position 20 et la position 63, 

30 extremites incluses, de la sequence d'acides amines SEQ ID N° 3 ; 

c) peptide mature dont la sequence d'acides amines est la sequence SEQ ID N° 6, 
correspondant a la sequence comprise entre la position 64 et la position 94, 
extremites incluses, de la sequence d'acides amines SEQ ID N° 3 ; oil 

d) fragment homologue, variant ou modifie d'un peptide selon a), b) ou c). 
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Dc fa$on encore preferee, les polypeptides scion la presente invention 
correspondent a la structure primairc de la dcfcnsinc mature dcfmic prccedemment, 
c'cst-a-dire la staicturc correspondant a la sequences d'acides aminos SEQ ID N° 6 
suivantc : 

5 lie Cys His Cys Arg Val Leu Tyr Cys He Phc Gly Glu Mis Leu Gly Gly Thr Cys 

Phc lie Leu Gly Glu Arg Tyr Pro lie Cys Cys Tyr. 
scs homologues, variants ou formes modifiecs ainsi que leurs fragments biologiquement 
actifs et les polypeptides les contenant. 

r ■ T ■ 

II est bien entendu que les polypeptides de Tinvention sont sous forme non 
10 naturelle, e'est-a-dire qu'ils ne sont pas pris dans leur environnement nature! mais qu'ils 
ont pu etrc obtenus par purification a partir de sources naturelles ou bien obtenus par 
recombinaison genetique ou par synthese chimique comme cela sera decrit ci-apres. 

Par « polypeptide homologue », on entend un polypeptide dbnt la sequence 
decides amines presente au minimum 80 %, ct prefercntiellement 90 % t d'acides 
15 amines en commun. 

Par « polypeptide variant », on entend designer un polypeptide mute ou 
correspondant a un polymorphisme pouvant cxister, notammcnt chez Petrc humain ct 
pouvant presenter unc troncature, unc substitution, unc deletion ct/ou une addition d'au 

> » 

moins un acidc amine compare au polypeptide scion V invention. 

20 Par « polypeptide modifier on entend designer un polypeptide obtcnu par 

recombinaison genetique bu par synthese chimique comme cela sera decrit ci-apres v 
presentant une modification par rapport a la sequence normalc. Ces modifications 
pourront notamment porter sur les domaines pre-, pro- ou mature du polypeptide selon 
Tinvention, sur les acides amines a 1* origin e d'une specificite de spectre ou d'efficacite 

25 de Pactivite, ou 4 Porigine de la conformation structural^ de la charge, ou de 
Phydrophobicite, et de la capacite de multimerisation et d f insertion membranaire du 
polypeptide selon Tinvention. On pourra ainsi creer des polypeptides d'activite 
equivalente, augmentee ou diminuee, et de specificite equivalente, plus etroite, ou plus 
large. Les modifications pourront aussi porter sur les sequences impliquees dans la 

30 maturation, le transport et Padressage du polypeptide. 

Par « fragment biologiquement actif » d'un polypeptide selon Tinvention, on 
entend designer un fragment polypeptidique ayant conserve au moins unc activite du 
polypeptide dont il est issu, en particulier : 

• capable d'etre reconnu par un anticorps specifique d'un polypeptide selon 
35 Tinvention ; et/ou 
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• capable cTagir commc antibiotiquc ; et/ou 

• capable d'agir commc agent cytotoxiquc ; et/ou 

• capable d'agir commc agent antilumoral ; ct/ou 

• capable clc moduler la reparation tie tissu, la regulation endocrine ou le processus 
5 d'inflanuiiation, notammcnt diirant unc infection. 

Scion rinvention, les fragments biologiqucmcnt actifs dc polypeptides selon 
rinvention auront.au minimum 10 acides amines, de preference 15 acides amines. 

Commc cela a dtc indique preccdemment, parmi les fragments 
biologiqucmcnt actifs, un fragment preferc est le peptide mature de sequence decides 
10 amines SEQ ID N° 6. 

Parmi les homologues du peptide mature, il faut citer les polypeptides dans 
lesquels jusqu'a 5 acides amines ont etc modifies, tronques a Textremite N- ou C- 
terminale, ou bicn deletes, ou bien ajoutes, ce qui represente environ 80 % de la 
sequence. 

IS Les fragments biologiqucmcnt actifs dc ce peptide mature component dc 

preference dc 10 a 15 acides amines, dont Tintcret pourra etre de pouvoir etrc obtenus 
facilcmcnt par synthese chimiquc. 

Commc cela est indique, les modifications du polypeptide mature auront 
pour objectif notammcnt dc : 

20 - moduler ractivite dc la defensine, 

- modifier sa specificite, tant au niveau des microorganismcs sur lesquels clle est active 
que sur sa localisation tissulairc, 

- modifier sa biodisponibilite. 

Les composes precedents peuvent etre obtenus en utilisant la chimie 
25 combinatoire, dans laquelle il est possible de faire varier systematiquement des parties 
de polypeptide avant de les tester sur des modeles, cultures cellulaires ou des 
microorganismes par exemple, pour selectionner les composes les plus actifs ou 
presentant les proprietes rechcrchees. 

La synthese chimique presente egaicmcnt Tavantage de pouvoir utiliser : 
30 - des acides amines non naturels, ou 

- des liaisons non peptidiques. 

Ainsi, afin d'ameliorcr la duree de vie des peptides, il pourra etrc interessant 
d'utiliscr des acides amines non naturels, par exemple sous forme D, ou bien des 
analogues decides amines, notamment des formes soufrees par exemple. 
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Enfin, la staicture de la defensinc mature ou de ses homologucs, variants ou 
modifies, de mcme que Ics fragments correspondant, pourront etrc intcgrcs dans dcs 
staicturcs chimiques de type poiypcptidiquc ou autrcs. Ainsi, il pourra ctre intcrcssant de 
prcvoir aux cxtrcmites N- et C-tcrminales des composes non rcconmis par Ics proteases. 
5 L f invention comprend egalcment Ics acides nucleiques codant pour tin 

polypeptide scion I'invcntion. 

Selon un mode prcfere, les acides nucleiques scion I' invention scront choisis 
parmi les acides nucleiques suivants : 
a) acide nucleique de sequence SEQ ID N° 1 (genomiquc) ; 
10 b) acide nucleique de sequence SEQ ID N° 2 (cDNA) ; 

c) acide nucleique equivalent, homologue, mute ou modifie, par rapport aux acides 
nucleiques selon a) ou b) ; 

d) fragment des sequences a), b) ou c) ayant au moins dix bases ; 

e) acide nucleique capable de s'hybridcr avee Tune des sequences telles que definies 
15 en a), b), c) ou d). 

II est entendu que la presentc invention nc conccrnc pas les sequences 
genomiques dans leur environncmcnt chromosomiquc naturcl ; il s'agit de sequences qui 
ont etc isolecs, e'est-a-dire qu'cllcs ont etc prclcvccs dircctcmcnt ou indircctcmcnt, leur 
environncmcnt ayant etc au moins particllcmcnt modific. 
20 II peut ainsi s*agir d'ADN genomiquc, d'ADNc, ou d'ARN, comportant ou 

non dcs nucleotides non riaturels ; il peut s'agir d'acides nucleiques naturels isoles, ou 
d'acides nucleiques de synthese. 

Par acide nucleique equivalent, on entendra un acide nucleique codant pour 
les polypeptides selon Tinvention, compte tenu de la degenerescence du code genetique, 

> + 

25 et les ADNc et ARN correspondants. 

Par acide nucleique homologue, on entendra un acide nucleique dont la 
sequence presente une homotogie d'au moins 80 %, de preference 90 %, avec les 
sequences nucleiques selon Tinvention. 

Par acide nucleique mute, on entendra tout acide nucleique codant pour un 
30 polypeptide variant selon Tinvention, et tout acide nucleique comportant, par rapport 
aux sequences SEQ ID N° 1 et SEQ ID N° 2, au moins une mutation dans les sequences 
promotrices et/ou regulatrices, lesquelles pourront avoir un effet sur I 'expression du 
polypeptide notammcnt sur son taux depression et la tissu-specificite de celle-ci. Les 
sequences presentant un polymorphisme present chez Tetre humain sont done incluses 
35 dans Tinvention. Parmi ces polymorphismes, certains pourront conduire a des 



WO 99/11663 PCT/FR98/01864 

9 

deficienccs immunitaires, de reponse aux infections, a des predispositions et/ou au 

< 

, devcloppement de cancers. 

Par acidc nuclciquc modific, oh cntcndra tout acidc nuclciquc codanl pour 
un polypeptide modific scion ('invention, ou tout acidc nuclciquc obtciui par mutagenese 
5 scion des techniques bien connu.es de Phomme de Part, et comportant des modifications 
par rapport aux sequences normales, hotammcnt des mutations dans les sequences 
regulatriccs ct/ou promotives, notammcnt conduisant a unc modification du taux ct/ou 
de la tissu-specificite de Pexprcssion du polypeptide. 

La presente invention concerne Pensemblc des amorces ct sondes, qui 
10 pourront etre marquees selon des methodes bien ..confutes de Phomme du metier, 
permettant de mettre en evidence, notammcnt par des techniques basees sur 
Phybridation ou sur Pamplification, par exemple par PCR, les sequences nucleiques 
selon Pinvention, y compris de discriminer les sequences normales des sequences 
mutees. 

15 Parmi les fragments d'acides nucleiques interessants, il faut citer en 

particulicr les oligonucleotides anti-sens, e'est-a-dire dont la structure assure, par 
hybridation avee la sequence cible, une inhibition de Pexprcssion du produit 
correspondant. II faut encore citer les oligonucleotides sens qui, par interaction avee des 
protcincs impliquccs dans la regulation de Pexprcssion du produit correspondant, 
20 induiront soit une inhibition, soit unc activation de ccttc expression. 

II pourra s'agir de sequences qui agisscnt aussi bien au niveau des sequences 
exoniques ou introniques decrites que sur les sequences flanquantcs, notamment les 
promoteurs et/ou regions 5' UTR. 

La presente invention concerne egalement des vecteurs de clonage ou 
25 depression comportant une sequence nucleotidique telle que decrite precedemment. 

Ces vecteurs de clonage ou ^'expression pourront comporter des elements 
assurant Pexpression de la sequence dans une cellule hote, notamment des sequences 
promotrices et des sequences de regulation efficaces dans ladite cellule. 

Le vecteur en cause pouvant etre a replication autonome ou bien destine a 
30 assurer P integration de la sequence au sein des chromosomes de la cellule hote. 

Dans le cas de systemes a replication autonome, cn fonction de la celluie 
hote, procaryote ou eucaryote, on utiliscra de preference des systemes de type 
plasmidique ou des systemes viraux, les virus vecteurs pouvant etre notamment des 
adenovirus (Perricaudet et al., 1992), des retrovirus, des poxvirus ou des virus 



WO 99/11663 PCT/FR98/01864 

10 

herp&iques (Epstein et al., 1992). L'homme de metier connait les technologies 
utilisables pour chacun de ces virus. 

■ ■ . 

Ainsi, il est connu d'utiliscr comme vecteur. viral des virus ddfectifs dont la 
culture est eflectudc dans des cellules de complementation, ccci cvitant les risques 
5 (Sventucls de proliferation d'un vecteur viral infectieux. 

Lorsque Ton souhaitcra Integration de la sequence dans les chromosomes 
de la cellule hote, il sera necessaire de prcvoir de part et d'autre de la sequence 
nucteotidique a intdgrer une ou plusieurs sequences provenant de la cellule hote afin 
d'assurer la recombinaison. II s'agit la egalement de procedds qui sont largement decrits 
10 dans la technique anterieure. On pourra, par exemple, utiliser des systemes de type 
plasmidique ou viral ; de tels virus seront, par exemple, les retrovirus (Temin, 1986) ou 
les AAV, Adenovirus Associated Virus (Carter, 1993). 

L'invention concerne egalement les cellules procaryotes ou eucaryotes 
transformees par un vecteur tel que decrit precedemment et ceci afin d'assurer 
15 P expression d'une ddfensine Def-X naturelle, normale ou variante, ou modifiee, ou bien, 
par exemple, d'un de ses fragments. 

Comme cela a ete indiqud precedemment, la presente invention concerne 
egalement les polypeptides obtenus par culture des cellules ainsi transformees et 
recuperation de la prot&ne exprimec, ladite recuperation pouvant etre eflfectuce de fa?on 
20 intracellulaire ou bien de fa$on extracellulaire dans le milieu de culture lorsque lc 
vecteur a ete con?u pour assurer la secretion de la proteine par le biais, par exemple, 
d'une sequence "signal", le polypeptide &ant sous forme d'un pr6-polypeptide oii 
prdpro-polypeptide. Les constructions permettant la s6cr6tion des polypeptides sont 
connues, aussi bien pour des systemes procaryotes que des systemes eucaryotes. Dans le 
25 cadre de la presente invention, certains des polypeptides Def-X pourront comporter leur 
propre systeme de s6cr&ion ou d'insertion membranaire. 

II est bien entendu que les polypeptides recombinants selon P invention 
peuvent etre obtenus sous forme glycosy lee ou non glycosytee et presenter ou non la 
structure tertiaire naturelle. 
30 Parmi les cellules utilisables pour la production de ces polypeptides, il faut 

citer bien entendu les cellules bact&iennes (Olins et Lee, 1993), mais Egalement les 
cellules de levure (Buckholz, 1993), de meme que les cellules animales, en particulier les 
cultures de cellules de mammifere (Edwards et Aruffo, 1993) mais Egalement les 
cellules d'insectes dans lesquelles on peut utiliser des proeddes mettant en oeuvre des 
35 baculovirus par exemple (Luckow, 1993). 
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Les cellules ainsi obtenues peuvent permettre dc preparer des polypeptides 
naturels, variants ou modifies, Def-X, mais egalcmcnt des fragments do ces 
polypeptides, notammcnt des polypeptides pouvant corrcspondrc aux fragments 
biologiqucmcnt actifs. 

5 La pr&cntc invention conccrnc, en outre, les memcs polypeptides selon 

I'invention mais obtcnus par synthese chimiquc ct pouvant comporter des acides amines 

non naturels ou modifies. 

■ 

Les polypeptides selon la prcsentc invention, en particulier la defensine 
mature, de meme que les homologucs, derives ou polypeptides matures modifies, 
10 peuvent etre obtenus par synthese chimique et ce en utilisant Tune quelconque des 
nombreuses synthases peptidiques connues, par exemple les techniques mettant en 
oeuvre des phases solides ou des techniques utilisant des phases solides partielles, par 
condensation de fragments ou par une synthese en solution classique. 

Lorsque les composes selon la presente invention sont synthetises par la 
15 methode en phase solide, Tacide amine C-tcrminal est fixe sur un support solide inerte ct 
comporte des groupes protecteurs de son groupement amino en alpha (et si ccla est 
necessaire, des protections sur ses groupes fonctibnnels lateraux). 

A la fin de cette etapc, 1c groupe protcctcur du groupement amino terminal 
est elimine et on fixe le second acidc amine comportant lui aussi les protections 
20 n^cessaires. 

Les groupes protecteurs N-terminaux sont ^limines apres que chaque acidc 
amine a 6t6 fixe, par contre on mainticnt, bien entendu, la protection sur les chaines 
laterales. 

Lorsque la chame polypeptidique est complete, on clive le peptide de son 
25 support et on ^limine les groupes de protection lateraux. 

La technique de synthase en phase solide est ddcrite notamment dans Stewart 
et al. (1984) et Bodanszky (1984). 

II ne sera pas ici evoque les details de la synthese, il convient simplement de 
rappeler que les groupes protecteurs prefers pour les groupements alpha-amino sont des 
30 groupes protecteurs de type urethane (BOC ou FMOC). Quant aux reactifs de couplage, 
ils sont tres nombreux, parmi eux il faut bien entendu citer plus particulierement la N,N'- 
diisopropyl-carbodiimine (DIC) mise en oeuvre en general dans le DMF ou le DCM. 

Lorsque Ton souhaitera utiliser des amino-acides non naturels, il pourra etre 
necessaire de prevoir d'autres types de reactif et en particulier d'autres types de systeme 
35 de protection. 
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La presente invention concerne egalement les anticorps polyclonaux ou 
monoclonaux obtenus par reaction immunologiquc d'un organismc humain ou animal 
avec un agent immunogcnc constituc par un polypeptide scion I "invention; notammcnt 
un polypeptide obtcnu par culture d'unc des cellules prieddemment decrites, ou par 
5 synthese chimique commc indiquc prcccdcmmcnt. 

L'invention s'etend done aux anticorps monoclonaux ct polyclonaux ou un 
dc leurs fragments, anticorps chimcriqucs, capables dc rcconnaitrc specifiquement un 
polypeptide selon T invention. 

L'invention comprend aussi les anticorps selon Tinvention, caractcrises en cc 
10 qu'ils sont marques. 

Les anticorps marques pourront etre, par exemple, immunoconjugues a des 
enzymes telles que la peroxydase ou la phosphatase alcaline, ou marques a Taide de 
composes fluorescents, de la biotine ou encore radiomarqucs. Les techniques de 
marquage sont bien connues de Thomme du metier et ne seront pas developpees dans la 
15 presente description. 

L'invention s'etend egalement a ['utilisation d'un. polypeptide selon 
Tinvention comme agent antimicrobien, notamment antibacterien, antifongique, antiviral 
et/ou antiparasitaire, comme agent cytotoxique, a visec notammcnt anticancereuse, et/ou 
comme agent de modulation des processus d'inflammation, de reparation tissulaire et de 
20 regulation endocrine, notammcnt corticostatique. 

Selon un autre aspect, Tinvention concerne une composition pharmaceutique 
comprenant un polypeptide selon Tinvention, pouvant etre associee a un vehicule 
pharmaceutiquement acceptable. 

Une telle composition pourra etre administr^e par voie systemique, locale ou 

25 topique. 

Son mode d'administration, sa posologie, ses formes galeniques optimales 
pourront etre determines selon les criteres gen£ralement pris en compte dans 
T&ablissement d'un traitement adaptd k un patient, notamment son age, son poids 
corporel, la tolerance de traitement, ses eflfets secondaires constates, etc.. 
30 LMnvention comprend egalement une composition pharmaceutique 

comprenant un vecteur selon Tinvention capable d'exprimer in vivo un polypeptide selon 
Tinvention, pouvant etre associe a un vehicule pharmaceutiquement acceptable. 

II est £galement possible de prdvoir T expression de polypeptides ou leurs 
fragments in vivo, notamment par le biais de la therapie genique et en utilisant les 
35 vecteurs qui ont et£ decrits precedemment. 
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Dans le cadre de la therapie genique, il est possible egalement de prevoir 
{'utilisation des sequences des genes ou des ADNc prdcddcmment d&xits, "nus", cette 
technique a notamment 6ti deveioppee par la society Vical, qui a montrd qu'il etait, dans 
ces conditions, possible d'exprimcr 1c polypeptide dans certains tissus sans avoir rccours 
5 au support d'un vectcur viral notamment, 

Toujours dans le cadre dc la therapie geniquc, il est Egalement possible de 
prevoir Putilisation de cellules transformecs cx-vivo, lesquelles pourront etre ensuite 
r&mplantdes, soit telles quelles, soit au sein de systemcs de type organoide, tel que cela 
est egalement connu dans P6tat de la technique (Danos et al. 1993). On peut egalement 
10 envisager Tutilisation d'agents facilitant le ciblage d'un type cellulaire determine, la 
penetration dans les cellules ou le transport vers le noyau. 

Lesdites compositions pharmaceutiques sont, selon Tinvention, destinees a la 
prevention et/ou au traitement des infections microbiennes, notamment les infections 
micrbbiennes d'origines bacteriennes, de bacteries Gram-positives ou Gram-negatives, 
15 mycobacteriennes, fongiques et virales, ou parasitaires, notamment de spirochetes. 

Selon un mode prefere, Tinvention concerne avantageusement les 
compositions pharmaceutiques selon Tinvention caractdrisees en ce que les infections 
virales sont des infections lides A des virus a enveloppe, notamment les virus HSV et 
HIV. 

20 L' invention a Egalement pour objet des compositions pharmaceutiques selon 

Tinvention, destinies & la prevention et/ou au traitement des cancers, notamment les 
m&anomes, le cancer du foie, de la prostate, du poumon non a petites cellules ou le 
carcinome colorectal. 

T 

LMnvention comprend, en outre, des compositions pharmaceutiques selon 
25 Tinvention, destinies a augmenter les defenses immunitaires, a augmenter les defenses 
immunitaires en cas d'immunodtficience acquise ou k prdvenir Pimmunod£ficience, 
notamment pour le traitement du psoriasis, ou & moduler les processus inflammatoires 
dans les cas notamment de maladies a inflammation chronique. 

Les polypeptides selon la presente invention sont plus particulierement 
30 utilisables sous forme topique externe, par exemple sur la peau et les muqueuses. Ces 
formes topiques externes peuvent etre aussi bien a usage pharmaceutique, 
dermatologique qu'a usage cosm&ique. 

En particulier, ces. compositions peuvent etre utilisees comme agent 
antiseptique pharmaceutique ou bien comme antiseptique dans certains cosmetiques, soit 
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pour assurer un nettoyage de la peau ou des phaneres et/ou a titre de conservatcur des ' 
compositions. 

Les compositions topiqucs scion la prcscntc invention peuvent etre utilisccs 
notamment dans certaincs affections cutanecs, oculaircs, vaginalcs ou buccalcs. Elles . 
5 peuvent 6galement Stre utilisees commc agent cosmctiquc additionnel, notamment dans 
certains shampooings trajtants. 

L'invention concernc egalement la mise en Evidence de I'abscnce ou d'une 
quantite anormale de proteine ou d'acide nucleique corrcspondant k la defensine X 
comme marqueur d'une infection ou de pathologies qui seront decrites ci-apres. 

10 L'invention concerne egalement la mise en evidence d'une forme anormale 

de la proteine ou la presence d'un acide nucleique anormal corrcspondant a une 
defensine mutee qui peut eventuellement etre totalement inactive. Dans ce cas, la 
presence de cette forme anormale peut etre un marqueur de predisposition a certaines 
affections, notamment I'immunodeficience et/ou des cancers. 

15 C'est pourquoi, la prEsente invention concerne une methode de diagnostic 

d'une immunodeficience et/ou d'une predisposition k certains types de cancers, 
caracterisee en ce qu'on met en evidence dans un prelevement de patient la presence 
d'une defensine anormale et/ou d'une sequence codant pour une defensine anormale. 

Les methodes de diagnostic scion la prEsente invention pcrmettcnt, 

20 notamment, la mise en Evidence d'une immunodeficience, et/ou d'une predisposition a 
un ou des cancers, notamment ceux cites precedemment, en particulier dans des families 
k risque. Ce type de diagnostic sera en general effectue par mise en Evidence des formes 
mutees de la proteine ou des sequences d'acide nucleique. 

Mais {'invention concerne egalement des methodes de diagnostic de 

25 T inflammation, d'immunodeficience, de predisposition a des affections de type cancer 
et/ou d'infections dues k des microorganismes ou HEes k un deficit immunitaire ou 
phEnomene inflammatoire, caractErisEes en ce qu'elles comprennent le dosage d'un 
polypeptide ou d'un acide nuclEique selon l'invention dans un Echantillon biologique et 
la comparaison du rEsultat dudit dosage obtenu avec la quantity de polypeptide ou 

30 d'acide nucleique prEsente normaiement dans un Echantillon biologique Equivalent. 

Dans ce cas, le dosage peptidique permettra, en general, une detection d'une 
infection microbienne ou parasitaire et/ou d'une inflammation. Les dosages peptidiques 
peuvent etre realises par tout precede connu, ELISA ou RIA par exemple. La mise en 
evidence d'une forme anormale de la defensine-X peut etre rEalisEe, par exemple, a 



WO 99/1 1 663 PCI7FR98/0 1 864 

■ 

15 

l'aide (Tun anticorps monoclonal spccifique de cette forme, en particulier les anticorps 
. objet de I' invention. 

Selon un mode de realisation prdferc, I' invention comprend avantageuscment 
les methodes caractdrisdes en ce qiTclles mcttcnt en <xuvrc unc sonde ct/ou une amorce 
5 oligonucleotidiquc selon V invention. 

On prdfdrcra en general les methodes dans lesqucllcs tout ou partie de la 
sequence correspondant au polypeptide Def-X est amplifidc prdalablcment par dosage 
d'acide nucldique selon V invention, ces methodes d'amplification pouvant etre realisees 
par des methodes dites PCR ou PCR-Iike. Par PCR-like on entendra designer toutes les 
10 methodes mettant en oeuvre des reproductions directes ou indirectes des sequences 
d'acides nucldiques, ou bien dans lesquelles les systemes de marquage ont ete amplifies, 
ces techniques sont bien entendu connues, en general il s'agit de ramplification de 
l'ADN par une polymerase ; lorsque l'cchantillon d'origine est un ARN il convient 
prealablement d'efifectuer une transcription reverse. II existe actuellement de tres 
15 nombreux proeddds permettant cette amplification, par exemple les methodes dites 
NASBA "Nucleic Acid Sequence Based Amplification 11 (Compton 1991), TAS 
"Transcription based Amplification System" (Guatelli et al. 1990), LCR "Ligasc Chain 
Reaction" (Landegren et al. 1988), "Endo Run Amplification" (ERA), "Cycling Probe 
Reaction" (CPR), et SDA "Strand Displacement Amplification" (Walker ct al. 1992), 
20 bien connues de Thomme du metier. 

L'invention concerne en outre des kits ou necessaires de diagnostic pour la 
determination d'une infection microbienne ou parasitaire, d'une inflammation, d'une 
immunodeficience et/ou d'une predisposition a des affections de type cancer, 
caractdrisds en ce qu'ils comprennent un anticorps selon Tinvention. 
25 Les kits ou ndcessaires de diagnostic pour la determination d'une infection 

microbienne ou parasitaire, d'une inflammation, d'une immunoddficience et/ou de 
predisposition k des affections de type cancer, caractdrises en ce qu'ils comprennent une 
sonde et/ou une amorce selon 1'invention font dgalement partie de 1'invention. 

L'invention a, enfm, pour objet Putilisation de polypeptide selon 1'invention 
30 comme pesticide, notamment pour la culture de vegdtaux d'interet industriel comme, par 
exemple, les plantes vivrieres telles que le ma'is, le bid, le soja, le riz ou le colza, les 
. plantes fourrageres, les arbres fruitiers, la vigne ou les plantes ornememales. 

D'autres caracteristiques et avantages de la prdsente invention apparaTtront a 
la lecture des exemples ci-apres, illustrds par les figures dont les legendes sont ddcrites 
35 ci-dessous. 
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. Legendcs dcs figures 
Figure 1 

Sequence genomique dchDcf-X. 

Est presentee la totalite dc la sequence d'ADN genomique de hDcf-X qui presente une 
5 homologic significative avee le gene codant pour hDcf-4 (IINP-4). 

La sequence presente les sites suivants; dont la presence est deduite par homologic avee 





la sequence hDef-4 : 






• CAATbox 


1711-1714 




• TATA box 


1758-1767 


10 


• mRNA start 


1836 




• ■ f»vnn 1 

w VAUI 1 1 






• site d'epissage 1 


GTCAGT 




• insertion Alu 


2155-2335 




• insertion fragment de LI 


2710-2780 


15 


• site d'epissage 2 


CAG 




• exon2 


3394-3577 




• debut de phase codante 


3406 




• site d'epissage 3 


GTGAGA 




• site d'epissage 4 


CAG 


20 


• exon 3 


4 1 64-4379 




• fin dc phase codante 


4276 




• site de polyadenylation 


4374-4379. 



Figure 2 

Alignement des sequences genomiques des defensines humaines Def-X ct Def-4 (HNP- 
25 4). 

Alignement de la totalite de la sequence d'ADN genomique de la nouvelle defensine 
Def-X presentant une homologie avee F ADN genomique de hDef-4 (GenBank accession 
number Ul 8745). 

Les annotations presentent les positions sur la sequence de hDcf-4 dcs signaux CAAT 
30 box, TATA box, sites d'epissage, debuts ct fins d'introns/d'exons, debut de 
transcription, site de polyadenylation. 
Figure 3 

Alignement des sequences d'ADNc de hDef-4 (HNP-4) et hDef-X. 
Les sequences presentent une homologie glbbale de 61,4 %. L'alignement revele une 
35 insertion d'environ 75 bases en aval du codon STOP, presentes sur la sequence de hDef- 
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4, mais non sur celle de hDef-X ; 1'homologie forte reprend sur toute la region comprise 
entre I'extr&niti de cctte insertion et celle de PADNc. En dehors dc cettc region 
d* insertion, Ie dcgr£ d'homologie entre sequences nucldiques est done rcmarquable. 
Figure 4 

■ 

5 Sequence peptidique dc la protdinc hDef-X. 

La position des sites de clivage du signal peptide ct dc la region pro ont etc deduites de 
Talignemcnt des sequences peptidiqucs dc hDcf-4 et hDef-X. 
Figure 5 

Alignement des sequences peptidiques des defensines humaines connues hDcf-1, hDef- 
10 4, hDef-5, et hDef-6 avec hDef-X. 

* L'etoile indique un acide amine conserve sur les cinq sequences. 

• Le point indique un acide amine dont la classe est conservee sur les cinq sequences 
(acide amine soit identique, soit faisant Tobjet d'une substitution conservative). 

A six filches indiquent les positions des six cysteines conservees au travers de la 
15 classe des defensines classiques et responsables de la structure tridimensionnelle 

necessaire k Pactivite de ces peptides. 

EXEMPLES 

20 Excmnlc 1 ; Identification du gene codant pour hDcf-X 
Isolement du BAC B0725B12 

Afin d'analyser la region 8p23 du genome humain, notamment dans la 
region connue comme portant des genes codant pour des defensines humaines, on a isole 
un BAC ("Bacterial Artificial Chromosome") correspondent k ladite region. Une banque 

25 de BACs couvrant le genome humain complet a ete pr£par6e a partir de TADN d'une 
lign^e lymphoblastique humaine ddrivde de Tindividu n° 8445 des families du CEPH. 
Cette lign£e a 6t6 utilis6e comme source d'ADN de haut poids moteculaire. L' ADN a &e 
partiellement dig£r£ par P enzyme de restriction BamHl, puis clon6 au site BamHl du 
plasmide pBeloBacII. Les clones ainsi obtenus ont 6l6 "pootes" et cribles selon une 

30 procedure d'analyse tridimensionnelle prec^demment d£crite pour le criblage des 
banques de YACs ("Yeast Artificial Chromosome") (Chumakov et al, 1992 et 1995). 
Les pools tridimensionnels obtenus ont &e cribles par PCR k Paide des amorces 
encadrant le marqueur SHGC- 10793, pour Neutrophil defensin 4 precursor (GeneBank : 
numero d'accession U18745) ; un clone du BAC B0725 B12 a et6 ainsi isole. 
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Apr6s digestion par l'enzyme de restriction NotI, la taille de I'inscrt porte par 
ce BAC a 6t6 d&ermin£e sur un gel d'agarose 0,8 % apr£s migration par elcctrophorese 
en champ alternd (CHEF) (4 heurcs a 9 Volts/cm, avec un angle dc 100°, a 11 °C en 
tampon 0,5 x TAE). On a ainsi mis cn evidence que 1c BAC B0725B 12 porte un insert 
5 de 220 kb, avec un site interne pour l v enzyme- Not I. 

Localisation chromosomique du BAC B072SB12 par hybridation in situ fluoresccnte 
(FISH) 

La localisation chromosomique du BAC dans la region candidate 8p23. 1- 
23.2 a 6l6 confirmee par hybridation in situ fluorescente (FISH) sur chromosomes 

1 0 metaphasiques, selon la methode decrite par Cherif et al., ( 1 990). 
SeSquenpage de Pinsert du BAC B0725B12 

Afin de sequencer Tinsert du BAC B0725B12, on a prepare une banque de 
sous-clones a partir de 1' ADN sonique de ce BAC. 

Les cellules issues d'un litre de culture "overnight" ont ete traitees par iyse 

15 alcaline selon les techniques classiques. Apres centrifugation du produit obtenu dans un 
gradient de chlorure de cesium, 12 \ig d'ADN du BAC B0725B12 ont 6t6 purifies. 3 ng 
d'ADN ont 6t6 soniques afin d'obtenir des fragments dont les tallies se distribuent 
uniformement de 1,2 kb k 1,5 kb. Les fragments obtenus ont ete traites dans un volume 
de 50 |il avec 2 unites de Vent polymerase pendant 20 minutes a 70°C, en presence des 4 

20 d^oxytriphosphates (100 jiM). Les fragments aux extremity franches rdsultant de cette 
dtape ont 6t6 s^pares par dectrophorese en gel I % d'agarose a bas point de fusion (60 
Volts pendant 3 heures). Les fragments groupes selon leurs tallies ont 6l6 excises et les 
bandes obtenues traitees par r agarose. Apres extraction au chloroforme et dialyse sur 
colonnes Microcon 100, I'ADN en solution a 6x6 ajust6 k une concentration de 100 ng/^il. 

25 Une ligation * 6t6 effectute "overnight" en mettant en presence 100 ng de l'ADN 
fragment^ du BAC B0725B12 et 20 ng d'ADN du vecteur BluescriptSK linearise par 
digestion enzymatique, et traite par la phosphatase alcaline. Cette reaction a 6t6 realisee 
dans un volume final de 10 \il en presence de 40 unit6s/}il de T4 ADN ligase (New 
England Biolabs). Les produits de ligation ont ensuite servi a transformer par 

30 dlectroporation, soit une souche XL-Blue (pour les plasmides multicopies), soit une 
souche D10HB (pour les sous-clones issus du BAC). Les clones lacZ" resistant a 
Pantibiotique ont 6t6 repiques individuellement en microplaques pour stockage et 
s^quenfage. 

On a ainsi obtenu 960 sous-clones correspondant k P insertion de fragments 
35 de 1,2 kb k 1,5 kb au site BamHI (rendu franc) du plasmide BluescriptSK. 
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Les inserts de ces sous-clones ont ete amplifies par PCR sur cultures 
. bacterienncs conduites "overnight", cn utilisant les amorces des vecteurs flanquant les 
insertions. La sequence des cxtrcmitcs de ces inserts (cn moyennc 500 bases de chaquc 
cot<$) a 6t6 determined par sequcn^agc automatiquc fluorescent sur sdquenccur ABI 377, 
5 &]uipc du logicicl ABI Prism DNA Sequencing Analysis (version 2. 1.2); 

Les fragments de sequence provenant des sous-BACs ont 6l6 assembles par 
le logiciel Gap4 de R. Staden (Bonficld ct al., 1995). Ce logiciel permet la reconstruction 
d'une sequence complete a partir de fragments de. sequences. La sequence deduite de 
Talignement des differents fragments est la sequence consensus. 
10 On a enfin utilise des techniques de sequen^age dirig6 (marche systematique 

de I'amorce) pour parfaire les sequences et relier les contigs. 
Analyse des sequences pour ^identification de penes 

Les exons potentiels de Pinsert du BAC B0725B12 ont ete reptres par 
recherche d'homologie sur les banques publiques de proteines, d'acides nucleiques et 
15 d f EST (Expressed Sequence Tags). 

Banques de dowries 

On a utilise des rcfontes locales des principals banques publiques. La 
banque de proteines utilisees est constitute par la fusion non redondante des banques 

20 Genpept (traduction automatique de GenBank, NCBI ; Benson et al., 1996) ; Swissprot 
(George et al., 1996) et PIR/NBRF (Bairoch et al., 1996). Les doublons ont ete Amines 
par le logiciel "nrdb" (domaine public, NCBI ; Benson et al., 1996). Les repetitions 
internes ont ensuite &e masqutes par le logiciel "xnu" (domaine public, NCBI ; Benson 
et al., 1996). La banque rdsultante, dtnommee NRPU (Non-Redundant Protein-Unique) 

25 a servi de reference pour les recherches d f homologies prot&ques. Les homologies 
trouvtes avec cette banque ont permis de localiser des regions codant potentiellement 
pour un fragment de proline au moins apparent^ k une proline connue (exons codants). 
La banque d'EST utiliste est composee des sous-sections "gbest" (1-9) de Genbank 
(NCBI ; Benson et al, 1996). Elle contient tous les fragments de transcrits publics. 

30 Les homologies trouvees avec cette banque ont permis de localiser des 

regions potentiellement transcrites (presentes sur TARN messager). 

La banque decides nucleiques (autres que les EST) utilisde contient toutes 
autres sous-sections de Genbank et de TEMBL (Rodriguez-Tome et al., 1996) dont les 
doublons ont ete elimines comme pr6c6demment. 

35 
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Logicids 

On a utilise 1'ensembie de logicicls BLAST (Altschul et al . 1990) de 

■ 

recherche d'homologies cntrc une sequence ct des banqucs dc donnccs proteiques ou 
nuclciqucs. Lcs scuils de signification utilises dependent de la longueur et dc la 
5 complcxite de la region testec ainsi que de la taille de la banque dc reference, lis ont etc 
ajustes ct adaptcs a chaque analyse. 

Exemnle 2 : analyse des sequences micleiqncs et pentidiqucs dc hDef-X 
Structure du gene codant pour hDef-X 

10 L'alignement du gene codant pour hDef-X avee ceux codant pour les 

defensines connues a permis de noter une homologie maximale cntre hDcf-X et hDcf-4 
(Figure 2). Le taux global d'homologie des deux sequences nuclciqucs est dc 72 % Les 
deux seules regions de I'ADN genomique de hDef-X ne presentant pas d'homologie 
avec celui de hDef-4 correspondent a deux zones d'insertion de sequence repetce dans la 

15 sequence de hDef-X, qui sont absentes sur la sequence de hDcf-4 : un clement de type 
Alu (positions 2155 a 2335) et un fragment d'dlcment de Line 1 (positions 2710 a 2780), 

On note une conservation importante de la region flanquant en 5 1 la region 
promotricc, d'ou decoulc probablcmcnt une conservation importante des elements dc 
regulation dc la stabilite du mcssager ct dc Pcxpression du gene. 

20 La forte conservation dc la sequence dcTcxon 1, non traduit, pcrmct de 

rattachcr definitivement la defensine hDef-X a la classe des defensines classiqucs 
hematopoYetiques, soit hDef-1, 2, 3 et 4, par opposition aux defensines enteriques hDcf-5 
et 6, dont la sequence genomique ne comporte que deux exons, tous deux codants. 

L'alignement des ADNc de hDef-4 et hDef-X, indiquant une homologie 

25 superieure a 60 %, est presente Figure 3. 
Analyse proteique 

La sequence peptidique de la defensine selon ('invention est representee 
Figure 4. Les trois domaines de la proteine sont positionnes comme suit : 

• peptide signal : aa 1-19 
30 • region pro : aa 20-63 

• peptide mature : aa 64-94. 

Les degres d' homologies specifiques entre hDef-4 et hDef-X ont etc 
calcules, selon la region de la proteine concernce : 

• peptide signal : 63,2 % 
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• region pro : 52,3 % 

• peptide mature : 37,9 %. 

L'homologie globale est de 49,5 %. Ces chifTres confirmcnt la trcs forte 
homologic qui existe cntre ddfensincs, homologic maximalc au niveau des peptides 
5. signaux et minimalc au niveau des peptides matures. 

On retrouve dans la sequence protdiquc primaire dc Dcf-X les acides amines 
conserves dans la classc des defensincs classiqucs, notamment les six cysteines 
impliquees dans la structure tridimensionncllc de celles-ci (Figure 5). 

Afin de predire les structures secondaires presentes sur la defensine selon 
10 I'invention, on a utilise les logiciels de prediction de structure secondaire inclus dans le 
Protein Interpretation Package, Copyright MRC 1994, Medical Research Council, 
Hillsroad, Cambridge, United Kingdom. 

Ces logiciels ont notamment permis de comparer les structures predites de 
Def-X et HNP-4. Profils d'hydrophobicite, structures en alpha-helices, feuillets p, 
15 amphiphilicite sont superposables dans les deux peptides, ce qui suggere des processus 
analogues d'insertion membranaire et de formation de canaux ioniqucs multimeriques 
pour ces deux ddfensines. 

Excmnlc 3 : Recherche dc mutations nssoctecs ft des cas familinnx dc cancers 

20 Extraction de PADN pdnomique 

L'ADN g£nomique de patients immunodeficients ou atteints de cancer, est 
extrait du sang veineux peripherique apres lyse cellulaire, digestion proteique, partition 
organique et finalement precipitation alcoolique, selon des techniques classiques bien 
connues de l'homme de fart. 

25 II est notamment interessant d'etudier la presence de mutations dans l'ADN 

g^nomique d'individus issus de families & fort taux cancer, tous types de cancers 
confondus. Une deficience dans un gene de ddfensine de granulocyte, tel hDef-X peut en 
eflfet avoir un role dans la predisposition aux cancers, comme mentionne preeddemment. 
Amplification de l'ADN g^nomique 

30 Des amorces oligonuclcotidiques sont utilisees pour ramplification 

g^nomique des sequences exoniques dcrivdes du BAC B0725B12 ; elles sont predites 
par analyse informatique, et definies a l'aide du logiciel OSP (Hillier et al., 1991). 

M. 

Toutes ces amorces contiennent, en amont des bases specifiquement ciblees 
par ramplification, une queue oligonucleotidique universelle commune, destinee a 
35 permettre le sequence des fragments amplifies (PU 5'- 
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TGTAA AACGACGGCC AGT-3 * pour les amorces en amont, et RP : 5'- 
CAGGAAACAGCTATGACCO' pour les amorces en aval). 

Les amorces oligonuclcotidiqucs sont synth&isecs selon la methode des 
phosphoramiditcs, sur un synthctiscur GENSET UFPS 24. 1 . 
5 ^amplification dc chaquc sequence exonique prcditc est rcalistfe par reaction 

d'amplification en chamc par polymerase (PCR), dans les conditions suivantes : 



Volume final 50 nl 

ADNgcnomique lOOng 

MgC12 2mM 

10 dNTP (pour chacun) 200 pM 

Amorce (pour chacune) 7.5 pmoles 

AmpliTaq Gold DN A polymerase (Perkin) 1 unite 



Tampon de PCR (10X = 0.1 M Tris HCI pH 8.3, 0.5 M KCI) IX. 

L'amplification est realisee dans un thermocycleur Perkin Elmer 9600 ou MJ 
15 Research PTC200 avec couvercle chauftant. Apres un chauftage a 94°C pendant 10 
minutes, 35 cycles sont ertectues. Chaquc cycle comprend : 30 secondes a 94°C, 1 
minute a 55°C et 30 secondes a 72°C. Un segment final d'elongation de 7 minutes a 
72°C termine ramplification. 

La quantite de produits d'amplification obtenue est determinec sur 
20 microplaque de 96 puits, par fluorometrie, utilisant Tagent intercalant Picogreen 
(Molecular Probes). 

Detection des polvmorphismes/mutations 

Les produits de ramplification genomique par PCR sont sequences sur 
s6quenceur automatique ABI 377, en utilisant des amorces fluorescentes marquees par 
25 les fluorochromes ABI (Joe, Fam, Rox et Tamra) et TADN polymerase 
Thermosequanase (Amersham). 

Les reactions sont realisees en microplaques de 96 puits, sur thermocycleur 
Perkin Elmer 9600, dans des conditions classiques de cycles de temperature : 

- 8 cycles : denaturation : 5 sec. a 94°C ; hybridation : 10 sec. ; elongation : 30 sec. a 
30 72°C, puis 

■ 

- 13 cycles : denaturation ; 5 sec. a 94°C ; elongation : 30 sec. & 72 C C. 

6 unites de Thermosequanase, et 5-25 ng de produit ^amplification sont 
utilises par reaction de sequence. 

A Tissue des cycles d'amplification, les produits des reactions de sequence 
35 sont precipites dans Tethanol, resuspendus dans du tampon de charge contenant de la 
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formamide, denatures, et deposes sur gels d'acrylamide 4 % ; les electrophoreses (2 
heures 30 a 3 000 Volts) sont conduitcs sur sequenceurs ABI 377 equipes dcs logiciels 
ABI dc collection ct d'analysc (ABI Prism DNA Sequencing Analysis Software, version 
2.1.2.). 

5 Les sequences obtcnucs chcz dcs patients attcints dcs deficicnccs dtudices, 

notamment chez dcs patients issus de families i forte predisposition aux cancers, sont 
companies aux sequences obtenues chez dcs sujets contrdles, . apparentes ct non 
apparent^. Une analyse statistique (calcul de lod score) pcrmet de conclure quant a la 
signification de la presence d'un site d'h&erozygotie et a son association avec une 
10 predisposition aux cancers. 

Excmnle 4 : Recherche dc mutations nonetuclles 

Les mutations ponctuelles identifies comme indique ci-dessus, peuvent 
ensuite etre mises en evidence chez des sujets presentant une potentielle deficiencc dans 
15 le gene codant pour hDef-X, selon de nombreuses methodes connues de Phomme de 
Tart. Parmi celles-ci, on peut citer la liste non exhaustive suivante : 

• sequen^age 

• « single nucleotide primer extension ». (Syvanen et al M 1 990) 

• RFLP 

20 • recherche de « single strand conformation polymorphism » 

• methodes basees sur un clivage des regions misapparides (clivage enzymatique par 
la SI nuclease, clivage chimique par differents composes tels que la piperidine ou le 
tetroxide d'osmium) 

• mise en Evidence d'h&eroduplex en electrophorese 

25 • methodes basees sur ^utilisation d'« allele specific oligonucleotide » (ASO, 
Stoneking et al., 1991) 

• m&hode OLA (« dual color oligonucleotide ligation assay, Samiotaki et al M 1994) 

• m&hode ARMS (« amplification refractory mutation system »), ou ASA (« allele 
specific amplification »), ou PASA (« PCR amplification of specific allele ») (Wu et 

30 al., 1989). 
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REVENDICATIONS 

1) Polypeptide isole choisi parmi Ics polypeptides suivants : 
a) polypeptide dont la sequence d'acides amines est la sequence SEQ ID N° 3 ; 
5 b) polypeptide homologuc, variant ou modifie du polypeptide dont la sequence 
d'acides amines est la sequence SEQ ID N° 3 ; 

c) polypeptide dont la sequence d'acides amines est la sequence d'acides amines (Tun 
fragment biologiquemcnt actif d'un polypeptide tel que defini en a) ou b) ; 

d) polypeptide comprenant au moins un fragment tel que defini en c). . 

10 2) Polypeptide selon la rcvendication I, caracterise eh ce qu'il est constitue 

de Tun au moins des fragments suivants : 

a) peptide signal dont la sequence d'acides amines est la sequence SEQ ID N° 4 ; 

b) region pro dont la sequence d'acides amines est la sequence SEQ ID N° 5 ; 

c) peptide mature dont la sequence d'acides amines est la sequence SEQ ID N° 6 ; ou 
1 S d) fragment homologue, variant ou modifie d'un peptide selon a), b) ou c). 

3) Polypeptide dont la sequence d'acides amines est la sequence SEQ ID 
N° 6, scs homologucs, variants ou formes modifiecs ainsi que 1 cur's fragments 
biologiquemcnt actifs ct les polypeptides les contcnant. 

4) Acidc nucleiquc codant pour un polypeptide scion Tune des 
20 revendications 1 a 3. 

5) Acide nucleiquc choisi parmi les acides nuclciqucs suivants : 

a) acide nucleique de sequence SEQ ID N° 1 ; 

b) acide nucleique de sequence SEQ ID N° 2 ; 

c) acide nucleique equivalent, homologue, mute ou modifie, par rapport aux acides 
25 nucleiques selon a) ou b) ; 

d) fragment des sequences a), b) ou c) ayant au moins dix bases ; 

e) acide nucleique capable de s'hybrider avec Tune des sequences telles que definies 
en a), b), c) ou d). 

6) Vecteur de clonage ou d'expression dans une cellule hotc appropriee 
30 d'une sequence nucleotidique, caracterise en ce qu'il comporte une sequence selon Tune 

des revendications 4 et 5. 

7) Vecteur selon la revendication 6, caracterise en ce qu'il comporte les 
elements assurant Texpression de ladite sequence dans ladite cellule hote. 

8) Ceilule transformee par un vecteur selon Tune des revendications 6 et 7. 
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9) Cellule selon la revendication 8, caracterisee en ce qu'il s'agit (Tune 
cellule procaryote. 

10) Cellule selon la revendication 8, caracterisee en ce qu'il s'agit d'unc 
cellule cucaryotc. 

5 1 1) Proc&le dc production d'un polypeptide scion Tunc des revendications 1 

A 3, caracterise en ce qu'on cultive unc cellule scion Tune des revendications 8 A 10 ct en 
ce que Ton rccupere Ic polypeptide produit. 

12) Polypeptide susceptible d'etre obtenu par la misc en ocuvre du precede 
selon la revendication 1 1. 
10. 13) Polypeptide selon Tune des revendications l a 3, caracterise en ce qu'il 

est obtenu par synthese chimique. 

* * 

14) Anticorps monoclonal ou polyclonal ou un de leurs fragments, anticorps 
chimeriques, caracterise en ce qu'il est capable de rcconnaitre specifiquement un 
polypeptide selon Tune des revendications 1 a 3, 12 et 13. 
15 15) Anticorps selon la revendication 14, caracterise en ce qu'il est marque. 

16) Sonde ou amorce oligonuclcotidiquc, caracterisee en ce qu'elle est 
constitute d'un acide nucleique selon I'une des revendications 4 ct 5. 

17) Sonde selon la revendication 16, caracterisee en ce qu'elle est marquee. 

18) Utilisation d'un polypeptide scion Tunc des revendications 1 a 3, 12 ct 
20 13 comme agent antimicrobien et/ou antiparasitaire. 

19) Utilisation d'un polypeptide selon I'une des revendications 1 a 3, 12 et 
13 comme agent cytotoxique, notamment a visee anticancereuse. 

20) Utilisation d'un polypeptide selon I'une des revendications 1 a 3, 12 et 
13 comme agent de modulation des processus de l'inflammation, de reparation tissulaire 

25 et de regulation endocrine, notamment corticostatique. 

21) Composition pour usage topique externe, caracterisee en ce qu'elle 
comporte au moins un polypeptide selon Tune des revendications 1 a 3, 12 et 13. 

22) Composition selon la revendication 21, caracterisee en ce qu'il s'agit 
d'une composition cosmetique. 

30 23) Composition pharmaceutique comprenant un polypeptide selon I'une des 

revendications 1 a. 3 et 12 et 13. 

24) Composition pharmaceutique comprenant un vecteur selon I'une des 
revendications 6 et 7, capable d'exprimer in vivo, un polypeptide selon I'une des 
revendications 1 & 3. 
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25) Composition pharmaceutique selon Tune des revendications 21, 23 ct 24, 
caracterisee en cc qu'elle comprcnd un vehicule pharmaccutiquemcnt acceptable. 

26) Composition pharniaccutique selon Tunc des revendications 21, 23 a 25, 
destinee a la prevention et/ou au traitemcnt des infections microbiennes ou parasitaircs. 

5 27) Composition pharniaccutique selon la revendication 26, caracterisee cn 

cc que les infections microbiennes ou parasitaircs sont des infections d'origincs 
bactcricnncs, dc bacterics Gram-positives ou Gram-negatives, mycobactcricnnes, 
fongiques, ou liees a des spirochetes. 

28) Composition pharniaccutique selon la revendication 26, caracterisee en 
10 ce que les infections virales sont des infections liees a des virus a enveloppe, notamment 

les virus HSV et HI V. 

29) Composition pharmaceutique scion Tune des revendications 21, 23 a 25, 
destinee a la prevention et/ou au traitement de cancers, notamment les melanomcs. 

30) Composition pharmaceutique scion la revendication 29, caracterisee en 
15 ce que le cancer est le cancer du foie, de la prostate, du poumon non a pctitcs cellules ou 

le carcinome colorectal. 

31) Composition pharmaceutique scion Tunc des revendications 21, 23 a 25, 
destinee a augmcntcr les defenses immunitaircs, a augmcntcr les defenses immunitaircs 
cn cas d'immunodcficicncc acquise ou a prevenir rimmunodcficicncc, notamment pour 

20 le traitemcnt du psoriasis. 

32) Composition pharmaceutique scion Tune des revendications 21, 23 a 25, 
destinee a moduler les processus inflammatoires, notamment dans les cas de maladies a 
inflammation chronique. 

33) Methode de diagnostic d'une immunodeficience et/ou d'une 
25 predisposition a des affections de type cancer, caracterisee en ce qu'on met en evidence 

dans un prelevement de patient la presence d'une defensine anormale et/ou d'une 
sequence codant pour une defensine anormale. 

34) Methode de diagnostic dMnfcctions dues a des microorganismes ou liees 
a un deficit immunitaire ou a un phenomene inflammatoire, caracterisde en ce qu'elle 

30 comprend le dosage d'un polypeptide selon Tune des revendications 1 a 3 ou d'un acide 
nucleique selon Tune des revendications 4 et 5 dans un echantillon biologique et la 
comparison du resultat dudit dosage obtenu avec la quantite dudit polypeptide, 
respectivement dudit acide nucleique, presente normalement dans un echantillon 
biologique equivalent. 
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35) Methode de diagnostic d' inflammation, d'une immunodeficience ct/ou 
. d'une predisposition a des affections de type cancer, caracterisee en cc qu'cllc comprcnd 

Ic dosage d'un polypeptide scion Tunc des rcvcndications I a 3 ou d'un acidc nuclciquc 
scion Tune des rcvcndications 4 et 5 dans un cehantillon biologiquc ct la coniparaison du 
5 rcsultat dudit dosage obtenu avec la quantite dud it polypeptide, respect ivement dudit 
acide nuclciquc, prescnte normalcment dans un cehantillon biologiquc equivalent. 

36) Methode de diagnostic selon Tunc des rcvcndications 33 a 35, 

. caracterisee en ce qu'clle met en ceuvrc un anticorps selon Tunc des rcvcndications 1 4 ct . 
15. 

10 37) Methode de diagnostic selon Tunc des rcvcndications 33 a 35, 

caracterisee en ce qu'elle met en ceuvre une sonde et/ou une amorce oligonucleotidique 
selon Tune des revendications 16 et 17. . 

38) Kit ou necessaire de diagnostic pour la determination d'une infection 
inicrobienne ou parasitaire, d'une inflammation, d'une immunodeficience et/ou de 

15 predisposition a des affections dc type cancer, caracterise cn cc qu'il comprcnd un 
anticorps selon Tune des rcvcndications 14 et 15. 

39) Kit ou necessaire de diagnostic pour la determination d'unc infection 
microbienne ou parasitaire, d'unc inflammation, d'unc immunodeficience ct/ou de 
predisposition a des affections de type cancer, caracterise cn cc qu'il comprcnd une 

20 sonde et/ou une amorce scion Tunc des rcvcndications 1 6 ct 1 7. 

40) Utilisation d'un polypeptide scion Tune des rcvcndications I a 3, 12 ct 
13, commc pesticide, notamment pour la culture de vegetaux d'interet industriel. 
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ACACCATTTG TCTTCATGTA ACCCCATTAG CTATACCCTC TAGTGCAAGG AAACCATAGG 
10 20 30 40 50 60 

GCCTAGGTCA CACCATGAGG CTGCNCTTAC AAGTTATGCA AAAACTATGG ACTTCGCAGA 
70 80 " 90 100 110 120. 

CCTGTGCGTA ACAACATCAC ACNCCAAATT TAACCAGCTC TCCCCATAAC AGCACGCTCA 
130 140 150 160 .170 180 

TGTGTTACTG AGGAAATGCC TGTGGATTGG AGTGTGTTCT GTGTGCAGGA GGCTGGTCCA 
190 200 210 .220 230 240 

GGTTTCACTT CTGCAGGACA CTGGACGTTT CCCAAAACCA GCAGACTTTC CCCACGTGCA 
250 260 270 280 290 300 

CACACACCCC TTCTCATTTT GCCTCTACAT CCATATCCAC TGGGCCCTTC AGGCACCTAC 
310 320 330 340 350 360 . 

TAATGCCCTA GAACCTAAAA CCATCATCTG GGGCCCAGTT CCCTGAATGG CCCTAATCTC 
. 370 . 380 390 400 410 420 

TTCCTCTGCT GGAATGAGTC CAGTGCCCAC TTCCTCCAAC GGTGAAATTG CTGGGCTGCT 
. 430 440 450 460 470 480 

ACAGATCAGG AACTCACTGC TTCCTCATAG GGGCAGCCGA CTTCACTGCT CTGCAACAGC 
490 500 510 520 530 540 

GACCACCCCT AGCGAGGCTT GAGATGCCTC TTGCCTCCTT AAGACTGAGG GAGACGCTTC 
550 560 570 580 590 600 

AGCTCTCACT CCACTGCCCC AAGTCCTCCA CAGCGCGGTG CCTGCTGCCT. TCACACAGAG 
610 620 630 640 650 660 

CTGCAGGGGN AGGTCCTGTG TATCCGGCCT GCTGGACCAG CGCTGTGCAC AACCCTCCCA 
670 680 690 700 710 720 

TGGCAACAGT GGCTGCCCGG CCTGCACACT GGGCTTGGCA ACCTCGCTGT AGGTATTTAT 
730 740 750 760 770 780 

TCCCTCAGGA GTGACTGCAT TCTTTTCCCA TTTCCAGAAA ACTGATGCCA TTTACCTCAC 
790 800 810 820 830 840 

TATGAGGAGG AGGAGGAGGA GGAGGGTGGA GAGTGGTACA TTTTAAAATG TGCACTATTC 
850 860 870 880 890 900 

TCCCTAGGAC TCCCCCTCAA ATAACCCAGG AGGGACCATA CCAGCTCATT CCTGTGTATC 
910 920 930 940 950 960 

CCAAGCATAN GAGTAATCAT CCCACTCATG CTGAGTGTAT GGTGGCCATT AAGCCTGCCC 
970 980 990 1000 1010 1020 
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TGAACTGGCT TTAGAACAAG GTGTTTGAGC ACACAGCACC GTCTTGCTGC CACCTTGGCC 
1030 .1040 1050 1060 1070 1080 

CCCTCCCTTG TGAGACCTCT GAGACACATT NAGGTCTCAC CTAAAAATCT CAGGATTTCT 
1090 1100 1110 1120 1130 1140 

AGGCCCAAAN CGGTCCTAAA AAATTGTTCA GTCTGAACTC TCTAAGGTCA AGAGAAGAGG 
1150 1160 .1170 1100 1190 1200 

TGGTTGCTCC CTCTAAGAAA CCACATGTTG CATGTACATC CTTAATTCCG GAAAGTCCAA 
1210 1220 1230 1240 1250 1260. 

CAAACCTGCC CTGCTTAGCA ACACAAGCCG AGGTGGTACT CCTCTCACCC GGGCATTCTC 
1270 1280 1290 1300 1310 1320 

CAACACACCT GTTTGTCCAA ACAGCTTTGA TTTGTTTTTA TAGTTGGACC CCAGGTTCCC 
1330 1340 1350 1360 1370 1380 

AGGAGGCTGG TTCAGGCCAT ATTCCAAATC CTCATCTGTG TGTGAGTGGC ATTCTTAGCC 
1390. 1400 1410 1420. 1430 1440 

TAGCCTCCTT ACAGGGTGGA TACTATGATA CACAGCCAGG CTGTCCCAGT GGCTTTCAAT 
1450 1460 1470 1480 1490 1500 

ATTCTTTTGG TCCAGATAGT TCAGCCTCAG CACCAGTGTA GG CAT CAC AG GGTCAATTGT 
1510 1520 1530 1540 1550 1560 

CTTAGGAGTC ATGGAGAATT CATAGTTGGT AGCTACCTGG GCCTGGCCAG GGCTGACCAT 
1570 1580 1590 1600 1610 1620 

AGACAAGGCA TCCCTCTGTG AACTCCTATT TTAATGCCAG CTTCCCAACA AATTTCTCAA 
1630 1640 1650 1660 1670 1680 

CAAT box 

CTGCTCTTAC CAGCAGGTAT TTAAACTACT CAATAGAAAG TAACCCTGAA AATTAGGACA 
1690 1700 1710 1720 1730 1740 

TATA box 



CCTGTTCCCA AAAGACCCTT AAATAGGGGA AGTCCTTTCN CTGCTTGTGC ACAGCTGCTG 
1750 1760 1770. 1780 1790 1800 

■ • ■ * 

. . | ->mRNA — 

ATGTGGCAAC ATGAGGCCTG GGACAGGGGA CTGTCCTCTG CCCACTCTGG TAGCCTCACG 
1810 1820 1830 1840 1850 1860 

Spsite 

— exon 1 

TAGCTTAACA ATCTGTCAGT AATACAATAC AAAACTTAAA CTTTCATACT GCGGTTCCAC 
1870 1880 1890 1900 1910 / 1920 

CCAGGAAGCT GTGTTCCCAA TCTGACCCGT GATTATGGGG CCACCTCAGA GGGNACCCAG 
1930 1940 1950 1960 1970 1980 



Figure 1 (suite) 
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TGAGGGAATA TTTTGCCATC TGGGACTGTT GGTTGCTGGG GGCAGTGGCT ATGAGCTCAG 

1990 2000 2010 2020 2030 2040 

TTAATAAACT CAAGCAGTTT CCTTCCAAAC ACACATCTCC TACTTAACGT GTCCAACAGA 

2050 2060 2070 2000 2090 2100 



GATGATCATA CTCATANGCT GCTAAAACAT TANTTTTATT TTGAGAAAAG TCTATTCATG 
2110 2120 2130 2140 2150 2160 
/q u insert — ««. 

TTCTTGGCCC ATGGAGTTTT CATTTNATTA NTTTATTTAT TTTGCAGAGA TGGAGTCTCA 
2170 2180 2190 2200 2210 2220 



CTATGTTGCT CAAGCTGGTC TCCAACTCCT GGGCTCAAGC GATCTTCCTA CTTTGGCCTT 
2230 2240 2250 2260 2270 2280 



TGAAAGCGCT GAGATTGCCT GTGTGAGCCA TCATGGGGGC TCACTGGCCC ACTGATTAAT 
2290 2300 2310 2320 2330 2340 

CAGATTAATT GTTTTTTGCT ATTGAANTTG . TTTGACTTCC TTGTATATTC GGATATTTAC 
2350 2360 2370 2380 2390 2400 

CCATTCTAAC ACGTAGGGTT TGCAAATATT TTCTCTCATG TTCTGTGTTG CCTTTTCACT 
2410 2420 2430 2440 2450 2460 

CAGTTGATGG TTTCCTTTGC TGTGCAGGTG CTTTAGTGTT CAACGCAGCC CCGCTTGTCT 
2470 2480 2490 2500 2510 2520 

ATTTTCCATT TTATTGCCTG TCCCTTTGAT GTCATAGCCA AGAAATAATT GCCCAGATTA 
2530 2540 2550 2560 2570 2580 

ATGTCAAAAA GCTTTATCCC TATATATTCT TCTAGTAGTT TATGGTTTCA GATCTTATGT 
2590 ' 2600 2610 2620 2630 2640 

TTAGGTCTTC AATCCATTGA GTTGATTTTT GTATGTGGTA TAAGAAAAAA GACCACATGT 
2650 2660 2670 2680 2690 2700 

AT AC AT AT CT CAAATTCTAA GGTAGTATAT ATTAGACACA TACAATGTGT CTATTTACAC 
2710 2720 2730 2740 2750 2760 

ACATTGAGCT GAAAATAATA AACATATTTT TATCTTTCAA TCAACTCTAT CTCTATCTCA 
2770 2780 2790 2800 2810 2820 

CTGAACTTGT TTCACCTATA GCCTGATGAG GTTGCTGTCC TCTCTACCCC AGCTCCTAT A 
2830 2840 2850 2860 2870 2880 

GGAGACTGCT CATCCCCTAA CCTCAAAAAC CCCTTCATGA GGGTGATAAT GCCCTTGAAT 
2890 2900 2910 2920 2930 2940 
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CCTGCAATGA ATTAGTTCTC TACTACAGTG GAATTCAGGT CTGTTATGAG GGTCTGGATC 
2950 .2960 2970 29.80 2990 3000 

TCTGAAGAGA AGAGCTCTCA TTTTCAGAAA ATAAGCAGGA TTTATTCCCT GAAATTACTG 
3010 3020 3030 3010 3050 , 3060 

AATTAAATCA GTGTTTCGAT TACTTTTTGC AATATTAAAA GTAAATATTT AAACAGGTAA 
3070 3060 3090 3100 3110 3120 

AAACAGAAAT AATGGTAGGG TCCTTATCAT CACCGTGAAT TCCAAGCTAG CATAGACACT 
3130 3140 3150 3160 3170 3180 

AAACCTAGAG ATTCACACTA GAATGAAAGC TGGGAGAGCA GAGGAGTCTC AGAAGGATGT 
3190 3200 3210 3220 3230 3240 

GGAGGCCAAT GGACACCTGC AACCTCTCCA ACGAAATGCC TACCTCCTCT CACTGCAGCA 
3250 3260 3270 .3280 3290 3300 

TCGATCTCTG AGCCTTCTCG CAGCAGAGCT ATAAATTCAG CCTGGCTCCT CCGTTCCCAC 
3310 3320 3330 3340 3350 3360 

Spsite CDS start 

— 

ACATCCACTC CTGCTCTCCC TCCTCTCCTC CAGGTGACTA CAGTTATGAG GACCCTCACG 
3370 3380 3390 3400 3410 3420 

. Exon 2 ■ — 

CTCCTCTCTG CCTTTCTCCT GGTGGCCCTT CAGGCCTGGG CAGAGCCGCT CCAGGCAAGA 
3430 3440 3450 3460 3470 3480 



GCTCATGAGA TGCCAGCCCA GAAGCAGCCT CCAGCAGATG ACCAGGATGT GGTCATTTAC 
3490 3500 3510 3520 3530 3540 

Spsite 

->ttfl# ««« 

TTTTCAGGAG ATGACAGCTG CTCTCTTCAG GTTCCAGGTG AGAGATGCCA GCATGCAGAG 
3550 3560 3570 3580 3590 3600 

CTACAGACTA GACAGAAGGA CAGGAGACAG GCTCTGGAAT TGGATCTCAG TGGCAGATGT 
3610 3620 3630 3640 3650 3660 

CACTTAGGTG GCTATACTTA ACATCTCTGG TCCTGGATTT TCTCATATCT AAATGGAATA 
3670 3680 3690 3700 3710 3720 

GAGAACCAAA GAAATCTAAG AGATTTTTCT TTCTCCAAAA ACTTGATTCC AAGATATGAC 
3730 3740 3750 3760 3770 3780 

TGTGAAATTC ACTAGATTTA AGATATAAGG AGATGCTACC TAGTTCCTTC TGGAGCCAGA 
3790 3800 3810 3820 3830 3840 
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CAAACAAGCT TAAGTATATA GGAAAATATT TCACCCTGTC TATATAGGAG GTTTTAGAAC 
3850 3860 3870 3880 3890 3900 

CTGGAGAGGA GCCTAAGAAT GTGTTCAGGT GTGTGTGTGA TGGGCAGGAA TGCAGAAAAG 
3910 3920 3930 3940 3950 3960 

TGAAGCAAAG GAGAATGAGT CTCGAATCCT GTGTGACCAG CACTGCTCTG TGTATTTATT 
3970 3980 3990 . " 4000 4010 4020 

r P 

CCTATTGACT GAGATTGTTT GTGCTACCGG CTGTAATACA GCCAACATCA CTCATCAGCC 
4030 .4040 4050 4060 4070 4080 

AACATGTGAC TTCTCCAAGA TTCCCTTTAC CACCCACTGC TGNACCCCGT ACTCAGTTTC 
4090 4100 4110 4120 4130 .4140 

Spsite 

' fttt»< - - - — - 

TGATGCTCTC TCTGGGTCCC CAGGCTCAAC AAAGGGCTTG ATCTGCCATT GCAGAGTACT 
4150 4160 4170 4180 4190 4200 

— ; — - Exon 3 : 

ATACTGCATT TTTGGAGAAC ATCTTGGTGG GACCTGCTTC ATCCTTGGTG AACGCTACCC 
4210 4220 4230 4240 4250 4260 

CDS stop 

* * * — 

AATCTGCTGC TACTAAGCTT GCAGACTAGA GAAAAAGAGT TCATAATTTT CTTTGAGCAT 
4270 4280 4290 4300 4310 4320 

Poly Ad 
****** 

„- : • . « 

TAAAGGGAAT TGTTATTCTT ATACCTTGTC CTCGATTTCC TGTCCTCATC CCAAATAAAT 
4330 4340 4350 4360 4370 4380 

ACTTGGTAAC ATGATTTCCG GGTTTTTTTT TTTTT 
4390 4400 4410 
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10. 20 30 40 - 50 

DEF4 GGATCCCCATTTGTCTTCAGTGTAACCC-ATTAGTTAAACCGCCTACTGCAAGGAAACCA 

* •*«••••• *•««• • i ••• • • • •«*«*..»... 

• «•«»«•»«««*•< •••••••• •«••• • » ••• ••• ;;;!;;;;;;!;; 

DEFX ACACCATTTGTCTTCA-TGTAACCCCATTAGCTATACCCTCTAGTGCAAGGAAACCA 

10 20 30 40 ..' 50 

60 70 80 90 100 110 . 

DEF4 CAAGGCTTGGATCAGATCATGAGGCTGCCCT-ACAAGTTATGCCAAAAAATATGGACTTG 

* ••• • • ••* » «*•*»«. *«f« 4 .< » « I I , '***»*«**• 

DEFX TAGGGCCTAGGTCACACCATGAGGCTGCNCTTACAAGTTATGC-AAAAACTATGGACTTG 
60 70 80 90 100 110 

120 130 140 150 160 170 

DEF4 GAAGACCTGTCTGTTATAATATCACAC-CCAAATCTAACCAGCTCTGCCAATAACAGCTC 
! :::::::::: : : : ::::::: :::::: ::::::::: : : • : 

DEFX GGAGACCTGTGCGTAACAACATCACACNCCAAATTTAACCAGCTCTCCCCATAACAGCAC 
120 130 140 150 160 170 

180. 190 200 210 220 230 

DEF4 TCTCCTATGTTACTAGGAAAATGGCTATGGATTGGAGTGTGTTCTGTGTGCAGGAGGCTG 



*•• • ••••••• 



DEFX GCTCATGTGTTACTGAGGAAATGCCTGTGGATTGGAGTGTGTTCTGTGTGCAGGAGGCTG 
180 190 200 210 220 230 

240 . 250 260 270 280 290 

DEF4 GTCCAGGTTTCACTTCTGCAGGACACTGGACATC-CCCACAACCACCAGACCTTCCCCAC 



•«••• •«■•• •**«>••• 
•••• ••••• •*••«•«• 



DEFX GTCCAGGTTTCACTTCTGCAGGACACTGGACGTTTCCCAAAACCAGCAGACTTTCCCCAC 
240 250 260 270 280 290 

300 310 320 330 340 350 

DEF4 GTGCACACACACCCCTTCTCATTTTGCCTCTACATCCATATCCACTGGGCCCTTCAGGCA 

DEFX GTGCACACACACCCCTTCTCATTTTGCCTCTACATCCATATCCACTGGGCCCTTCAGGCA 
300 310 320 330 340 . 350 

360 370 380 390 400 410 

DEF4 CCTACTAATGCCCTAGAACCTAAAACCATCATCTGGGGCCCAGTTCCCCAAATAGCCCTA 



DEFX CCTACTAATGCCCTAGAACGTAAAACCATCATCTGGGGCCCAGTTCCCTGAATGGCCCTA 
360 370 380 390 400 410 

420 430 440 450 460 470 

DEF4 ATTTCTTCCTCTGCTGGAATGAGTCCAGTGCCCACTTCCTCCAAAGGTGAAATTGCTGGG 

DEFX ATCTCTTCCTCTGCTGGAATGAGTCCAGTGCCCACTTCCTCCAACGGTGAAATTGCTGGG 
420 430 . 440 450 460 470 

480 490 500 5i0 520 530 

DEF4 CCT.GCAACAGATCAGGAACTCACTGCTTC-TCATAGGGGCAGCCGACTTCACTGCTCTGG 
• •••••#•»•••••••••••*••<•«•»<* 

DEFX C-TGCTACAGATCAGGAACTCACTGCTTCCTCATAGGGGCAGCCGACTTCACTGCTCTGC 

480 490 500 510 520 . . 530 
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DEF4 
DEFX 



540 550 560 570 580 590 

AACAGCGACCACCCCTAGCGAGGCTTGAGATGCCTCTTCCCTCCTTAAGACTGAGAGCGC 



••«•*•••••••*••«•»«••.•..>,,••*..,,,,, 

• ••••••*•••••«••••••••••••,•■,••«.••,;.. 



»•••••••«•••■,■,«« 

• •••*••••••*<«*,, 



AACAGCGACCACCCCTAGCGAGGCTTGAGATGCCTCTTGCCTCCTTAAGACTGAGGGAGA 
540 550 560 570 500 590 



DEF4 
DEFX 



CGCT : 



600 610 620 630 

- - GCCCCCAGTCCTCCATAGCCCAGTGCCT GGCTGCCTTCA 



• • * « 

• • • • 



••••• ••• 

••••■••«• ••• 



t • • a • • 
• •••at 



• •••••••• 

■ •••••••* 



CGCTTCAGCTCTC7VCTCCACTGCCCCAAGTCCTCCACAGCGCGGTGCCTG-CTGCCTTCA 
600 610 620 630 640 650 



DEF4 
DEFX 



640 650 660 670 680 690 

GCCAGAGCTGCAGGGG-AGGCCCTGAGCACCCAAGTCCTGCTGGACCAGCGCTGTGCACG 



• ••••••••••••• •••• ftftta 

*••••**••••••• • t • •••• 



• « 



• • • t • 



CACAGAGCTGCAGGGGNAGGTCCTGTGTATCC--GGCCTGCTGGACCAGCGCTGTGCACA 
660 670 680 690 700 710 



DEF4 
DEFX 



700 710 720 730 740 750 

GCCCTCCCATGGCGGCAGGGGCTGCCTGGACTGCATACTGGGTTCAGCAACCTCACTATA 



•*••*••*•••• 
•••••••••••• 



••••••• •■ i ft ft ft ft • ••••• 

• • »»»•»•• ft « « • < a < •••••• 



• • * t • < < t •« « , 

• ••••••« * • 



ACCCTCCCATGGCAACAGTGGCTGCCCGGCCTGCACACTGGGCTTGGCAACCTCGGTGTA 
720 730 740 750 760 770 



DEF4 
DEFX 



760 770 780 790 800 810 

GGTATTCATTCCCTCAGGAACAACTGCATTCTTTTCTCATTTCCAGAftAACCTCATCCCGT 



•••■•• ••••■••••••• 

•••••ft ••«••••••••!• 



• ••••••••••••• •••••••••••• •« <• a* 

■ ••••••■••••ft* • ••*«••••••• • • *« .« 



GGTATTTATTCCCTCAGGAGTGACTGCATTCTTTTCCCATTTCCAG.A;WVCTGATGCCAT 
780 790 800 810 820 830 



DEF4 



820 830 840 

TTACCTCACTACAAGGAGGAGGATG* 



850 860 
GTGGAGAGTGGTACATTTTAAAATGT 



«•*«•*••••• •■• 



• • • • « 



DEFX TTACCTCACTATGAGGAGGAGGAGGAGGAGGAGGGTGGAGAGTGGTACATTTTAAAATGT 

840 850 860 870 880 890 

870 880 890 900 910 920 

DEF4 GCACTAGTCTCCCTGGGACTCCCCTTCAAATAACCCAGGAGGGACCACACAAGGGAAAGC 

• »•••• ••••••• »*«••••■• ••••••••••••••••••■••• •• « • • * 

•••••• ••••••• *••••••*• •••••••■•••••••■•••••• I* * * 

DEFX GCACTATTCTCCCTAGGACTCCCGCTCAAATAACCCAGGAGGGACCATACCAGCTCATTC 

900 910 920 930 940 950 



DEF4 
DEFX 



930 940 950 960 970 980 

TTATGCATCCCCCCCACCC-AGTGACCATCTTCCTAACTCTGGGTGTAGGGAGACTCGTA 



• • 



• • 

• •• 



• • • 

• • • 



• • • 

• • • 



• » • • • • 



4) • 
• • 



CTGTGTATCCCAAGCATANGAGTAATCATCGCACTCATGCTGAGTGTATGGTGGCCATTA 
960 970 980 990 1000 1010 



DEF4 
DEFX 



990 1000 1010 1020 1030 1040 

AGCCTACG- - GGATTGGTTTGGGAACAGGGTATTTGAGCTCACAACACAAGGTGATGCAA 



AGCCTGCCCTGAACTGGCTTTAGAACAAGGTGTTTGAGCACACAGCACCG' 
1020 1030 1040 1050 1060 
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DEF4 
DEFX 



1050 1060 1070 1080 1090 1100 

GCTAACACCAATCTCGCTGCAGCTTTGGCCACCATCCTAAGG-GACTTCTGACAGACATT 



4«* ••••• 
« • • ••••• 



• ••*•• •• 



• * • 

• • • 



• *« ••••• «»•*<• 

• •• •«••• • •••«« 



TCTTGCTGCCACCTTGGCCCCCTCCCTTGTGAGACCTCTGAGACACATT 



1070 



1000 



1090 



1100 



1110 



DEF4 
DEFX 



1110 1120 1130 ■ 1140 1150 1160 

-AGGTGTCACGCAATCATTTGATGAGTCCTTGGCCTGGAT--GACCTAGACAGTCATTTA 



♦ .....«. •« . » , . ,» « ti «••• 

•«• ft • » • • ' • * • I • « • 



• ••»• « • • 

* • • « • I • • 



t « 



NAGGTCTCACCTAAAAATCTCAGGATTTCTAGGCCCAAANCGGTCCTAAAAAATTGTTCA 
1120 1130 1140 1150 1160 1170 



DEF4 
DEFX 



1170 1180 1190 1200 -1210 1220 

GGCTTGAACTATCTAAGGCCAAGCAAAAAGGTGACTGTCCCCTCTAGGAA-CCACATGCT 



• •• ••••• •»•••«• •••• 

• •••*« •••«**« •••• 



• ■ • • • • • 

• •- < • • • • 



■ « 



«•*•••• • » • »»*•••■ 

• •»•••• at* ««••••• 



GTCT-GAACTCTCTAAGGTCAAGAGAAGAGGTGGTTGCTCCCTCTAAGAAACCACATGTT 
1180 1190 1200 , 1210 1220 



DEF4 
DEFX 



1230 1240 1250 1260 1270 

ATATGCACATCCTTTACTCGGGAGCCTGCAAC-' CTGCCCTATCCAGCAACACAAGCC 



••• •«•«•«•• • •• ••• 

» • • •«••••»* • •• •»• 



• • • • • 
■ • « • • 



•••••• 

•«•••• 



•••••• 



GCATGTACATCCTTAATTCCGGAAAGTCCAACAAACCTGCCCTGCTTAGCAACACAAGCC 
1230 1240 1250 1260. . 1270 1280 



1280 1290 1300 1310 1320' 1330 

DEF4 CAGGCG-TATTCAGTCTCATCCAGGTATTCTCCAAC CTTACTTGTCTGAATGGCTTG 



• • • 

• • • 



* • 



* • 
» • 



••••• •••••••*•> 

• •■•,> « • •**•••••»• 



• • • • • 

■ • • • i 



• ■ 



• • • • 



DEFX GAGGTGGTACTCC-TCTC7VCCCGGGCATTCTCCAACACACCTGTTTGTCCAAACAGCTTT 
1290 1300 1310. 1320 1330 1340 



DEF4 



1340 1350 1360 1370 1380 1390 

GATTTGTTTTTATGGTTAGACCCCAGGG-CCTGGGAGGTCAGTTCAGACCACATTCCAAA 



DEFX GATTTGTTTTTATAGTTGGACCCCAGGTTCCCAGGAGGCTGGTTCAGGCCATATTCCAAA 
1350 1360 1370 1380 1390 1400 



DEF4 



1400 1410 1420 1430 1440 1450 

TCCTCATCTGTGTGTGGGTGGCATTTTGATCCTAGTCTCCTCGCAAGGTGTATACAACAA 



DEFX T CCT CAT CT GTGT GT GAGTGGCATTCTT AGC CTAGCCT CCTTACAGGGT GGATACTAT G A 
1410 1420 1430 1440 1450 1460 



DEF4 



1460 1470 1480 1490 1500 1510 

TATGCAGGCCAGGCTCTCCTGGTGGCTTTAAATATTCCCTCGGTCCAGGTAGTTCAGCCT 



DEFX TACACAG-CCAGGCTGTCCCAGTGGCTTTCAATATTCTTTTGGTCCAGATAGTTCAGCCT 
1470 1480 1490 1500 1510 152C 



DEF4 
DEFX 



1520 1530 1540 1550 1560 1570 

CAGCCACCAGCATAGGTATCATGGGGTCAATTGTCTTAGGAGTCATGAGGAATCCACAGT 



• ♦ » • • • • 



« • • • • • • 

• • i ♦ « • • 



•••• ••• 

•••• ••• 



CAGC-ACCAGTGTAGGCATCACAGGGTCAATTGTCTTAGGAGTCATGGAGAATTCATAGT 
1530 1540 1550 1560 1570 1580 
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. 1580 1590. 1600 1610 1620 1630 

DEF4 . TGATTGCTGCCTGGGCCTGGCCAGGGCTGACCAAAGTAGACGAGGGGTCGGTACCTCCGT 



t * • < « » • * •» 

» * • • « • • * ••«• * » 



DEFX TGGTAGCTACCTGGGCCTGCCCAGGGCTGACCA- - - T AG AC AAGGCATC - - — CCTCTGT 
1590 1600 1610 1620 1630 

1640 1650 . 1660 1670 1600 1690 

DEF4 GGACTCCTGCTTGAACTCCAGCTTTCTGCCAAATTTCTCAACTGCCCTTGTTAACAGTTA 

• •••••• • • t • ••••••• • •••••••*•••*••*• »•« • i i i • • 

DEFX GAACTCCTATTTTAATGCCAGCTTCCCAACAAATTTCTCAACTGCTCTTACCAGCAGGTA 
1640 1650 1660 1670 1680 1690 

CAAT box - 
X700 1710 1720 1730 1740 1750 

DEF4 TTTAAAGTACCCAATAGAAAGTAACGCTGAAAAATTAGGACACCTGATACCAAAAGACCC 

• *••** ••• •••••* •'• ••••••• ••■•*••••••• t «•« 

• ••••• ••« •••■•••••••«•• ••••••• • • • • ••«••••• « •••■*••■••« 

DEFX TTTAAACTACTCAATAGAAAGTAACCCTGAAAA-TTAGGACACCTGTTCCCAAAAGACCC 
1700 1710 .1720 1730 1740 1750 

TATA box 

1770 1780 1790 1800 

DEF4 TTAAATAAGG-AAGTCCTCTC-CTCTGTGTGCATGGCTGCTCTTG---CTACATAAGACC 

• •••••• •■ •• •••«•• «»•••• •• • «• 

• •••»•• ••••<•* •••<«• «••••• t •••• • • - • • 

DEFX TTAAATAGGGGAAGTCCTTTCNCTGCTTGTGCACAGCTGCTGATGTGGCAACATGAGGGG 
1760 1770 1780 1790 1800 . 1810 

mRNA start — >. SpSite 
1810 1820 | 1830 1840 1850 1860 

DEF4 TGGAACACAGGACTGCTGTCTGCCCTCTCTGCTCGCCCTGCCTAGCTTGAGGATCTGTAA 

, • • • ••* ••••• • •«• • •««•«• * •••••• • 

• • • ••• ••»•»• •••••■« • » • i • • •«• • •••••« • ••»*«• • 

DEFX TGGGACAGGGGACTGTCCTCTGCCCACTCTGGTAGCCTCACGTAGCTTAACAATCTGTCA . 
1820 1830 1840 1850 1860 1870 

1880 1890 1900 1910 1920 

DEF4 GTAACACAA -AACTTAAACTTTCACATTGAGGTTTCAATATTGAAGCTGTGTCCCC 



DEFX GTAATACAATACAAAACTTAAACTTTCATACTGCGGTTCCACCCAGGAAGCTGTGTTCCC 
1880 1890 1900 1910 1920 1930 

. 1930 1940 1950 1960 1970 1980 

DEF4 AGTCTGACCTCTCACTGTGGGGCCACCCCAGAGGACCCAGCGTGAAGCCCCTGCTGTGAA 

• • • * *••••••••• •»*•*• • •••• • « • 

• ••••••• • ■ ■ ••*••••■•• ••••«• • • •••* • • • • *• 

DEFX AATCTGACCCGTGATTATGGGGCCACCTCAGAGGGNACCCAGTGAGGGAA-TATTTTG-- 
1940 1950 1960 1970 1980 1990 

1990 2000 2010 2020 2030 . 2040 

DEF4 CTTCTATCTGGGTGTCTGGCGGCTGCTGGGGGTAATGGCTACTAGCTAAGTCAATAGAGA 



• ••••«•• ••••••••« « •••••• •••• ••* 

DEFX CCATCTGGGA — CTGTTGGTTGCTGGGGGCAGTGGCTATGAGCTCAGTTAATA 

2000 2010 • 2020 2030 2040 



Fi gur e 2 ( sui t e ) 
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DEF4 
DEFX 



2050 2060 2070 2080 2090 . 2100 

AACTCAAAAAGTTTCCTTCCAAACACACGTGTCCTACTTGACATGTCCAATAAAGACGAT 



• •#•••< •.•••«(«•••••••••••■ ••••••«!•* . • t •«•••«■ * t * t at* 

«*•«••• • «•*■••••■•«•••••«» • • •••««« * «•« • • « 

AACTCAAGCAGTTTCCTTCCAAACACACATGTCCTACTTAACGTGTCCAACACAGATGAT 
2050 2060 2070 2080 2090 2100 



DEF4 
DEFX 



2110 2120 .' 2130 2140 

CA CAGCTTCT — TAAAACATTA- TTTTATTGTCAGAGAAGCCTCT • 



• * 



» » 



CATACTCATANGCTGCTAAAACATTANTTTTATTTTGAGAAAAGTCTATTCATGTTCTTG 
2110 2120 2130 2140 2150 2160 



DEF4 
DEFX 



GCAG- 



2150 
-GTC 



CTA 



» • • « 
• • • • 



• • » 

• » » 



• • • 
« • • 



GCCCATGGAGTTTTCATTTNATTANTTTATTTATTTTGCAGAGATGGAGTCTCACTATGT 
2170 2180 2190 2200 2210 2220 



DEF4 
DEFX 



GGTCT* 



2160 

— GTTTTTC 



* • • » • 

• • • • • 



TGCTCAAGCTGGTCTCCAACTCCTGGGCTCAAGCGATCTTCCTACTTTGGCCTTTGAAAG 
2230 2240 2250 2260 . 2270 2280 



DEF4 
DEFX 



2170 
■AATCAGGTT 



•••••* 



CGCTGAGATTGCCTGTGTGAGCCATCATGGGGGCTCACTGGCCCACTGATTAATCAGATT 
2290 2300 2310 2320 2330 2340 



2180 2190 2200 2210 2220 2230 

DEF4 GTTTGTTTTTTGCTATTGA-GTTGTTTGACTTCCTTATGTATTCAGATATTTACCCCTTC 



DEF4 



DEFX AATTGTTTTTTGCTATTGAANTTGTTTGACTTCCTTGTATATTCGGATATTTACCCATTC 
.2350 2360 2370 2380 2390 2400 

2240 2250 2260 2270 2280 2290 

DEF4 TACCACGTAGGCTTTGCAAACATTTTCTCTCATTTTCTGGGTTGCCGTTTCCCTCAGTTG 

DEFX TAACACGTAGGGTTTGCAAATATTTTCTCTCATGTTCTGTGTTGCCTTTTCACTCAGTTG 
2410 2420 2430 2440 2450 2460 



2300 2310 2320 2330 2340 2350 

ATTGTTTCCTTTGCTATGAAGATGCTTTAGCGTTCAATGCAGCCCCGCTTGTCTATTTTC 



••••«•*« •••••• ••••«••*•«••••»••••••• 



DEFX ATGGTTTCCTTTGCTGTGCAGGTGCTTTAGTGTTCAACGCAGCCCCGCTTGTCTATTTTC 
2470 2480 2490 . 2500 2510 2520 



DEF4 
DEFX 



2360 2370 2380 2390 2400 2410 

CCATTTGTTTATTGCCTGTGCCTTTGGTGTCATAGCCAAGAAATCATTACTCACGTCAAT 



• • • • • 

• # • • • 



• • « • 

• • .* * 



C-ATTT TATTGCCTGTCCCTTTGATGTCATAGCCAAGAAATAATTGCCCAGATTAAT 

2530 2540 2550 2560 2570 2580 
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DEF4 
DEFX 



.2420 2430. 2440 2450 2460 2470 ■ 

GTCCAAA-GCTTTATCTTTGTATGTGCTTCTCGTAGTTGTATGGTTTCAGGTCTTTTCAA 



• *• • • • •••••••• 



• « • » 



••••• ••••4* ••••«••>••• ••«« 

• • « • • ••*••« • •••«•*•'•«« 



GTCAAAAAGCTTTATCCCTATATATTCTTCTAGTAGTT-TATGGTTTCAGATCTT 



2590 



2600 



2610 



2620 



2630 



2480 2490. 2500 2510 2520 2530 

DEF4 GTCTATGTTGAG-TCTTCAATCCATGTTGAGCTGATTTTT-TACATGTTGTGAGAGAAAG 

: : : : : ::::::::::::: : : j : : :::::::: : : : : : : : • : : : : 
DEFX - ; ATGTTTAGGTCTTCAATCCA- -TTGAGTTGATTTTTGTATGTGGTATAAGAAAAAA 

2640 2650 2660 2670 2680 2690 



DEF4 
DEFX 



2540 

GACCACGTGTATGCACCT 



GACCACATGTATACATATCTCAAATTCTAAGGTAGTATATATTAGACACATACAATGTGT 
2700 2710 2720 2730 2740 2750 



DEF4 
DEFX 



2550 2560 
--AGC AACTCATGAAC — 



.2570 
CTTACA- -CAACTCTTT 



• • • 

• • • 



• • # « • 

• ■ • • • 



• • • • 

• • • « 



* * 



CTATTTACACACATTGAGCTGAAAATAATAAACATATTTTTATCTTTCAATCAACTCTAT 
2760 2770 2780 2790 2800 2810 



DEF4 
DEFX 



2580 2590 2600 ■ 2610 2620 2630 

ATCTCTCTCACTGAGCTCATTTCACCTGTACCCTGATAAGGTCATTGTCCTCTTCACTCT 



•«• ••■••••*• «• 
«•• •••••••«• 



• * • •••••• «■•« *•••*••> » • « 

• »•••••• «• «-••«•• •>•< *»»><•»* • « ■ 



CTCTATCTCACTGAACTTGTTTCACCTATAGCCTGATGAGGTTGCTGTCCTCTCTACCCC 
2820 2830 2840 2850 2860 2870 



2640 2650 . 2660 . 2670 2680 2690 

DEF4 GGCCCCTACAGGAGACTACTCACCCCATTACCTCAGTCGCCCCTTCATGAGGGT-ATAAT 



DEFX AGCTCCTATAGGAGACTGCTCATCCCCTAACCTCAAAAACCCCTTCATGAGGGTGATAAT 

2880 2890 2900 2910 2920 2930 



DEF4 
DEFX 



2700 2710 2720 2730 2740 2750 

G AC CT AG AAG CCT G C AAT G AGTT ACT - CT CTACT CC ACCGG AATT C AGGT CT GGCAC C AG 



• • * 



• • •••••••••.« ••• • ••••<<• • 



•••••••••• • •» 



GCCCTTGAATCCTGCAATGAATTAGTTCTCTACTACAGTGGAATTCAGGTCTGTTATGAG 
2940 2950 2960 2970 2980 2990 



DEF4 
DEFX 



2760 2770 2780 2790 2800 2810 

TGTTTAGACCT — GAAGAGAATAGTAGGGCCCATTATCAGGAAATAAGAGGCATTTGCTC 



• •••• •••• ■•■•■«• * •••• 



GGTCTGGATCTCTGAAGAGAAGAG CTCTCATTTTCAGAAAATAAGCAGGATTTATTC 

3000 3010 3020. 3030 3040 . 



2820 2830 2840 2850 2860 2870 

DEF4 TCTTAAATTATTGAATGAAAGCACTGTTTCCATT-CTTTTTAGAATATTAAAGATTTAAC 



DEFX . CCTGAAATTACTGAATTAAATCACTGTTTCGATTACTTTTTGCAATATTAAA- 
3050 3060 3070 ■ 3080 3090 
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2880 2890 2900 2910 2920 2930 

DEF4 CAGGAAATATTAGGTATTTCCTGAAAACAGGAAAAAATGCCAGGGTCCTCATCATCACCA 

• • • • ••••••• *•• 

•• ••»•••• • • •§*•••• ••• •••• ••••4«*« 

DEFX -AGTAAATATTTA--AACAGGTAAAAACAG-AAATAATGGTAGGGTCCTTATCATCACCG 
3100 3110 3120 3130- 3140 3150 

2940 2950 2960 2970 2980 

DEF4 TCAACTTCAACCTAGGCACAGACACTAAACATAGAGCTTC CTGTGAAGAAAGCTGGG 

• •• • ■•• •»•• •• ••«•»•<»••• » * ■ 

DEFX TGAATTCCAAGCTAG-CATAGACACTAAACCTAGAGATTCACACTAGAATGAAACCTCGG 
3160 3170 3100 3190 3200 3210 

2990 3000 3010 3020 3030 3040 

DEF4 AGAGCAGAGGAGGCATTCCAGGGATGTCAAGGCCAATAGGAGTCGGCATCCTCTCTAACA 

• *•♦«•»§«••• • # • ••»*•«. ••«••••• • . • *•• 

. DEFX AGAGCAGAGGAGTC-TCAGAAGGATGTGGAGGCCAATGGACACCTGCAACCTCTCCAACG 

3220 3230 3240 3250 3260 3270 

3050 3060 3070 3080 3090 3100. 

DEF4 AAATiSCACACCTCCTCTCACTCAGAAGGCCAAAGGTTTCTTATCTCTGTGCCTTCTCCCA 

•••••• » « ••••••• ••••••«« ■« 

•••••• •• • • •••••••* 

DEFX AAATGCCTACCTCCTCTCACT -GC AGCATCC- -ATCTCTGAGCCTTCTCGCA 

3280 3290. 3300- 3310 3320 

3110 3120 3130 3140 3150 3160 

DEF4 GAA-AGCTATAAATCCAAGCTGGCTTCTCCCTCCCCACACAGCTGCTCCTCCTCTCCCTC 

* 

• • •••••••••• ••• •••«•• t • ■ • • • 

• ■ •••••••••• ••. ••••«* •••• • ••■•«••« t •••«»••«■•••••• 

DEFX GCAGAGCTATAAATTCAGCCTGGCTCCTCCGTTCCCACACATCCACTCCTGCTCTCCCTC 

3330 .3340 3350 3360 3370 3380 

< exon2 

3170 3180 3190 3200 3210 3220 

DEF4 CTC CAGGTCACCCCAGCCATGAGGATTATCGCCCTCCTCGCTGCTATTCTCTTGG 

• * • » * • • • • « ♦ fl m ««•••*• * * • ••••••• • * « • • • • • ■ • • a 

• • • • • • • • ■ • • • » •«••••* * * * • « a • * « * * * » * 

DEFX CTCTCCTCCAGGTGACTACAGTTATGAGGACCCTCACCCTCCTCTCTGCCTTTCTCCTGG 

3390 3400 3410 3420 3430 3440 



3230 3240 3250 3260 3270 3280 

DEF4 TAGCCCTCCAGGTCCGGGCAGGCCCACTCCAGGCAAGAGGTGATGAGGCTCCAGGCCAGG 



DEFX TGGCCCTTCAGGCCTGGGCAGAGCCGCTCCAGGCAAGAGCTCATGAGATGCCAGCCCAGA 

3450 3460 3470 3480 . 3490 3500 



3290 3300. 3310 3320 3330 3340 

DEF4 AGCAGCGTGGGCCAGAAGACCAGGACATATCTATTTCCTTTGCATGGGATAAAAGCTCTG 



• •••• • 

• *••• *•*«•■<( • 



DEFX AGCAGCCTCCAGCAGATGACCAGGATGTGGTCATTTACTTTTCAGGAGATGACAGCTGCT 

3510 3520 3530 3540 3550 3560 



Figure 2 (suite) 
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DEF4 
DEFX 



> 

3350 3360 3370 3380 3390 3400 

CTCTTCAGGTTTCAGGTGAGAGAGGCCAGCATAAAAAAGCTACCGAGTCTAGAGAGACGG 



•••«*•••••• 



••••■»•*••• 

• •••••• 4 •»• 



44444444 
• •444444 



• • • • • 

• • • • • 



* • 



• • • f 4 
» • 4 4 » 



• • • 

• * • 



CTCTTCAGGTTCCAGGTGAGAGATGCCAGCATGCAGA-CCTAC' 
3570 3500 3590 3600 



• AG ACT AG ACAG AAGG 
3610 



DEF4 



3410 3420 3430 3440 3450 3460 

ATGGGAGATGGGCTCTGGAATCACATCTCAATGGTGGATGTCACTTAGGTGGCTTTACTT 



• • • • • •••*•••■•«( 

••••• «. «.••»»•«« 



•••••• ••• >*«•»••••<••*»•••• 

• ••»•* « « • ••*•««••••<•»••.«• *»>•■ 



DEFX ACAGGAGACAGGCTCTGGAATTGGATCTCAGTGGCAGATGTCACTTAGGTGGCTATACTT 
3620 3630 3640 3650 3660 3670 



DEF4 



3470 3480 3490 . 3500 . 3510 3520 

ACCATCTCTGGGCCTCGATTTTCTTATCTCGAAACTGAATAGAGAGACAAACAAATGTAA 



■ •»••■•••• • « « •■ • « • • • 

• ••«•••••• * • • •••••••« ••• 



• •■•■•«•• •*•• • • « • • • • 



DEFX AACATCTCTGGTCCTGGATTTTCTCATATCTAAATGGAATAGAGAACCAAAGAAATCTAA 
3680 3690 3700 3710 3720 3730 

3530 3540 3550 3560 3570 3580 

DEF4 GT-AGTCTTCTTTCTCCAAAGACTTGATTCCAAGGTATGTCTATAAAATTCGCTAGGGTT 

• • I • 4 • •••••• • • •«•• t ■ • ••••»• •••• a • 

■ • • ■ •••• •••••••« »••••-•• !« •*•• «• « 4 4 4 4 4 4 ■••* 

DEFX GAGATTTTTCTTTCTCCAAAAACTTGATTCCAAGATATGACTGTGAAATTCACTAGATTT 
3740 3750 3760 3770 3780 3790 

3590 3600 3610 3620 3630 

DEF4 AAGATATGGAGAGACAGATTGACCAGTTCTTTGTGGATCTAAAGAAGTA-GAT--ATTAT 



• • • ■ 

* • • ♦ 



• •»«• 4 4 4 4 4 4 4 4 

• • 4 • • •••••44 4 



• 44* • « • 4 * » 4 

• 4*4 4 4 4 4 444 



DEFX AAGATATAAGGAGATG--CTACCTAGTTCCTTCTGGAGCCAGACAAACAAGCTTAAGTAT 
3800 3810 3820 3830 3840 3850 

3640 3650 3660 3670 3680 3690 

DEF4 AG-GGAAAATATTTCATTCTGCCAACAAAGGAAATTTTAAAAACTGGAGATGGGCTTAAG 

.4 •444444I44444 4(4 • .« • •••• ••••• •• * 4 • 4 * • 4 4 • 4 4 44* 

4 • ••••«••••••• •»• • • • 4 4 4 4 ••••• 44 4 4 4 4 4 4 4 4 4 4 44*4 

DEFX ATAGG4AAAATATTTCACCCTGTCTATATAGGAGGTTTTAG.fiLACCTGGAGAGGAGCCT^G 
3860 3870 3880 3890 3900 3910 

3700 3710 3720 3730 3740 3750 

DEF4 AGTATGTTCAGGTGTGTGTCTGATGGGGCA—AAAGCACACAAATCAGAGCAAAAGAGAA 

DEFX AATGTGTTCAGGTGTGTGTGTGATGGG-CAGGAATGCAGAAAAGTGA-AGCAAAGGAGAA 
3920 3930 3940 3950 3960 3970 



DEF4 
DEFX 



3760 3770 3780 3790 3800 3810 

TGAGTCTCAAATCCTGTATGAGCAGCATTGCTCTGTGTATTTATTCCTATTGACTAAGGT 



TGAGTCTCGAATCCTGTGTGACCAGCACTGCTCTGTGTATTTATTCCTATTGACTGAGAT 
3980 3990 4000 4010 4020 4030 



3820 
DEF4 

DEFX 



3830 3840 . 3850 3860 3870 

TGTTTGTGCTACCGGCACTAATGCAGCCAGCATCACCGGTCAGCCAGCATGTGCATTCTC 



• •••••4444444444 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 

TGTTTGTGCTACCGGCTGTAATACAGCCAACATCACTCATCAGCCAACATGTGACTTCTC 
4040 4050 4060 4070 4080 4090 
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DEF4 
DEFX 



3880 3890 3900 3910 3920 3930 

CAAGATTCCCTTTACCACCCACCGCTGACCTTGGTGCTTAATTTCTCAGTCTTCCTCTGT 



• •••••*•••'«•,••••*••«•• »••» 

•«•••••••••••••»«••••« ••••• 



• • • * 

• • • « 



• * • • * • 
« • • • • • 



« • 



• • • • • 

• « ♦ • « 



CAAGATTCCCTTTACCACCCACTCCTGNACCCCGTACTCAGTTTCTGATGCTCTCTCTGG 
4100 4110 4120 4130 4140 4150 . 



< exon3 ■ — — 

3940 3950 3960 3970 3980 3990 

DEF4 GTTCCCAGGCTCAACAAGGGGCATGGTCTGCTCTTGCAGATTAGTATTCTGCCGGCGAAC 
• • •••••••••••••• •••• • • ■ • • • • ••••*,•* • • » « • 

DEFX GTCCCCAGGCTCAACAAAGGGCTTGATCTGCCATTGCAGAGTACTATACTGCATTTTTGG 
4160 4170 4180 4190 4200 4210 



DEF4 
DEFX 



4000 



4010 



4020 



exon3 

4030 



4040 



4050 



AGAACTTCGTGTTGGGAACTGCCTCATTGGTGGTGTGAGTTTCACATACTGCTGCACGCG 



••••• •••• 

• •••• »• •• *f««« # • t • t • * * 



« • # • * 



• • • * • 

• » • t • 



•••••*« 
••••*«• 



AGAACATCTTGGTGGGACCTGCTTCATCCTTGGTGAACGCTACCCAATCTGCTGCT 

4220 4230 4240 4250 4260 4270 



DEF4 
DEFX 



exon3 - ; 

4060 4070 4080 4090 4100 4110 

TGTCGATTAACATTCTGCTGTCCAAGAGAATGTCATGCTGGGAACGCCATCATCGGTGGT 



• • • • 

• • • ■ 



•ACTAA- 



DEF4 



DEFX 



. exon3 

4120 4130 4140 4150 4160 4170 

GTTAGCTTCACATGCTTCTGCAGCTGAGCTTGCAGAATAGAGAAAAATGAGCTCATAATT 



GCTTGCAGACTAGAGAAAAA- GAGTTC ATAATT 
4280 4290 4300 



4180 



4190 



4200 



exon3 — 
4210 



4220 



4230 



DEF4 TGCTTTGAGAGCTACAGGAAATGGTTGTTTCTCCTATACTTTGTCCTTAACATCTT-TCT 



■ «4«t« ••••••• 

• ••••• ••••••• 



• • • • • 

• • • • • 



DEFX TTCTTTGAGCATTAAAGGGAATTGTTATT CTTATACCTTGTCCTCGATTTCCTGTCC 

4310 4320 4330 4340 4350 4360 



Poly Ad 



DEF4 
DEFX 



4240 4250 4260 4270 4280 4290 

TGATCCTAAATATATATCTCGTAACAAGATGTCTTTGTTTACACCTCTTTGAAATTTGAT 



* • • • 

• • • • 



TCATCCCAAATAAATACTTGGTAACATGATTTCCGGGTTTTTTTTTTTTT 
4370 4380 4390 4400 4410 
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DEF4 
DEFX 



10 ' 20 30 40 ■ 50 60 

GTCTGCCCTCTCTGCTCGCCCTGCCTAGCTTGAGGATCTGTCACCCCAGCCATGAGGATT 



••«**•« •«••« • 

• •*•«•»• •••«* * •»' 



• *••••« * •«•••■ * * 

• ••«•#• * *«•••• • • 



•«* •••••* 



CTCTGCCCACTCTGGTAGCCTCACGTAGCTTAACAATCTGTGACTACAGTTATGAGGACC 
10 20. 30 40 50 60 



DEF4 
DEFX 



70 80 -90 100 110 120 

ATCGCCCTCCTCGGTCCTATTCTCTTCGTAGCCCTCCAGCTCCCGCCAGGCGCACTCCAG 



•• •••*•••• •••• 

• • «•••••<• . * . . 



«.•••• •••• «■*•• •■<• 



•-•*»••« 
• j •*•**• 



•••••• 



CTCAGCCTCCTCTCTGCCTTTCTCCTGGTGGCCCTTCAGGCCTGGGCAGAGCCGCTCCAG 



70 



80 



90 



100 



110 



120 



DEF4 
DEFX 



130 140 150 160 170 180 

GCAAGAGGTGATGAGGCTCCAGGCCAGGAGCAGCGTGGGCCAGAAGACCAGGACATATCT 



*•<•••• 
••<•»•« 



• « • • • 

• i • • • 



GCAAGAGCTCATGAGATGCCAGCCCAGAAGCAGCCTCCAGCAGATGACCAGGATGTGGTC 
130 140 150 160 170 180 



190 200 210 220 230 240 

DEF4 ATTTCCTTTGCATGGGATAAAAGCTCTGCTCTTCAGGTTTCAGGCTCAACAAGGGGCATG 



DEFX ATTTACTTTTCAGGAGATGACAGCTGCTCTCTTCAGGTTCCAGGCTCAACAAAGGGCTTG 

190 200 210 220 230 240 

250 260 270 280 290 300 

DEF4 GTCTGCTCTTGCAGATTAGTATTCTGCCGGCGAACAGAACTTCGTGTTGGGAACTGCCTC 



DEFX ATCTGCCATTGCAGAGTACTATACTGCATTTTTGGAGAACATCTTGGTGGGACCTGCTTC 

250 260 270 280 290 300 



DEF4 
DEFX 



310 320 330 340 350 360 

ATTGGTGGTGTGAGTTTCACATACTGCTGCACGCGTGTCGATTAACGTTCTGCTGTCCAA 



• * 



••••«• 
•••••• 



• • « 
« • • 



ATCCTTGGTGAACGCTACCCAATCTGCTG 
. 310 320 



--CTACTAA 

330 340 



350 



DEF4 



370 380 390 400 410 420 

GAGAATGTCATGCTGGGAACGCCATCATCGGTGGTGTTAGCTTCACATGCTTCTGCAGCT 



DEFX 



360 



370 



380 



390 



430 440 450 460 470 480 

DEF4 GAGCTTGCAGAATAGAGAAAAATGAGCTCATAATTTGCTTTGAGAGCTACAGGAAATGGT 



• • • •••«••••• ••••••• 



• • • • • ■ i 



DEFX '• — GCTT GCAGACT AGAGAAAAA- GAGTTCAT AATTTT CTTTGAGCATT AAAGGGAAT 

400 410 420 430 440 . 450 

490 500 510 520 530 

DEF4 TGTTTCTCCTATACTTTGTCCTTAACATCTT-TCTTGATCCTAAATATATATCTCGTAAC 

» • * • * 2 ••••• •••«••• • •• • ■ « • •••* ••'•«• ••■ « ••••• 

DEFX TGTTATTCTTATACCTTGTCCTCGATTTCCTGTCCTCATCCCAAATAAATACTTGGTAAC 

460 470 480 490 500 - 510 

540 • 
DEF4 AAG 

DEFX ATG 



Figure 3 
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< Signal peptide ><-- 

.5 10 . 15 .20 

MetArgThrLeuThr LeuLeuSerAlaPhc LeuLeuValAlaLeu GlnAlaTrpAlaGlu 



— _ , . Propiece 

25 30 35 40 

ProLeuGlnAlaArg AlaHisGluMetPro AlaGlnLysGlnPro ProAlaAapAspGln 



. Propiece 

45 50 55 60 

AspValVallleTyr PheSerGlyAspAsp SerCysSerLeuGln ValProGlySerThr 



-->< Mature peptide 

65 70 75 80 

LysGlyLeuIleCys HisCysArgValLeu TyrCysIlePheGly GluHisLeuGlyGly 



Mature peptide > 

85 90 94 

ThrCysPhelleLeu GlyGluArgTyrPro IleCysCysTyr 



Figure 4 



DEF4 HUMAN 
DEF5~ HUMAN 
DEF6 HUMAN 
DEF1~HUMAN 
DEFX~" 



SIGNAL 
MRI I ALLAAI LLVALQVRA 
MRTIAI LAAI LLVALQAQA 
MRTLT I LT AVL LVALQ AKA 
MRTLAI LAAI LLVALQAQA 
MRTLT LLSAFLLVALQAWA 



• • • 



PROPIECE 

GPLQAR -GDEAPGQ- EQRGPEDQDI SI S FAWDKSS 

ES LQER ADEATTQ- KQSGEDNQDLAI S FAGNGLS 

EPLQAEDDPLQAKAYEADAQ- EQRGANDQDFAVS FAEDASS 

EPLQAR- — ADEVAAAP EQ I AAD I P EVWS LAWDESL 

EPLQAR : — -AH EMP AQ- KQ P PADDQDWI Y FS G DDS C 

** * * * 

• • • 



DEF4_HUMAN 
DEF5 HUMAN 
DEF6~HUMAN 
DEF1 HUMAN 
DEFX" 



PROPIECE 
ALQVSGSTRGM 
ALRTSGSQARA 
SLRALGSTRAF 
APKHPGSRKNM 
SLQVPGSTKGL 



Mature PEPTIDE 

VCSCRLVFCRRT ELRVGNCLI GGVS FT YCCTRVD 
TCYCRTGRCATRES LSGVCEI SGRLYRLCCR— - 
TCHCRR- SCYST EYS YGTCTVMG INHRFCCL- - - 

ACYCRI PACIAGERRYGTCI YQGRLWAFCC 

ICHCRVLYCIFGEHLGGTCFILGERYPICCY 



* * 



A A 



A 



* * 

A 



* * 

A A 



Figure 5 
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LISTE DE SEQUENCES 



(1) INFORMATIONS GENE RALES : 

<i) DE DOS ANT: 

(A) NOM: GENSET SA 

(D) RUE; 24 RUE ROYALE 
(C) VILLE: PARIS 

(E) PAYS: FRANCE 

(F) CODE POSTAL: 75000 

(ii) TITRE DE L* INVENTION: POLYPEPTIDE DEFENSINE HUMAINE Def-X, ADN 
GENOMIQUE ET ADNc, COMPOSITION LES CONTENANT ET 
APPLICATIONS AU DIAGNOSTIC ET; AU TRAITEMENT THERAPEUTIQUE 

(iii) NOMDRE DE SEQUENCES: 6 

(iv) FORME DECHIFFRABLE PAR ORDINATEUR: 

(A) TYPE DE SUPPORT: Floppy disk 

(B) ORDINATEUR: IBM PC compatible 

(C) SYSTEME D f EXPLOITATION: PC-DOS/MS-DOS 

(D) LOGICIEL: Patentln Release 81.0, Version 111.30 (OEB) 



(2) INFORMATIONS POUR LA SEQ ID NO: 1: 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 4 415 PAIRES DE BASE 

(B) TYPE: NUCLEOTIDE 

(C) NOMBRE DE BRINS: DOUBLE 

(D) CONFIGURATION: LINEAIRE 

(ii) TYPE DE MOLECULE: ADN 

(vi) ORIGINE: 

(A) ORGANISME: Homo sapiens 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: Exon 1 

(B) EMPLACEMENT: 1836.. 1874 

(ix) CARACTERISTIQUE: . 

(A) NOM/CLE: Exon 2 

(B) EMPLACEMENT: 3394 ...3577 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: Exon 3 

(B) EMPLACEMENT: 4161.. 4380 
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i 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: start CDS 

(B) EMPLACEMENT: 3406.. 3408 

. (ix) CARACTERISTIQUE: 

(A) NOM/CLE: stop CDS 

(B) EMPLACEMENT: 4276.. 4278 



(ix) CARACTERISTIQUE: 

(A) NOM/CLE: site de polyAdenylat ion 

(B) EMPLACEMENT: 4374.. 4379 



(xi) 

• 


SEQUENCE DE 


ISCRIPTION: 


SEQ ID NO: 


n . 
-*- . 






ACACCATTTG 


TCTTCATGTA 


■ 

ACCCCATTAG 


CTATACCCTC 


TAGTGCAAGG 


AAACCATAGG 


60 


GCCTAGGTCA 


CACCATGAGG 


CTGCNCTTAC 


AAGTTATGCA 


AAAACTATGG 


ACTTGGGAGA 


120 


CCTGTGCGTA 


ACAACATCAC 


ACNCCAAATT 


TAACCAGCTC 


TCCCCATAAC 


AGCACGCTCA 


180 


TGTGTTACTG 


AGGAAATGCC 


TGTGGATTGG 


AGTGTGTTCT 


GTGTGCAGGA 


GGCTGGTCCA 


240 


GGTTTCACTT.. 


CTGCAGGACA 


CTGGACGTTT 


CCCAAAACCA 


GCAGACTTTC 


CCCACGTGCA 


300 


CACACACCCC 


TTCTCATTTT 


GCCTCTACAT 


CCATATCCAC 


TGGGCCCTTC 


AGGCACCTAC 


360 


TAATGCCCTA 


GAACCTAAAA 


CCATCATCTG 


GGGCCCAGTT 


CCCTGAATGG CCCTAATCTC 


420 


TTCCTCTGCT 


GGAATGAGTC 


CAGTGCCCAC 


TTCCTCCAAC 


GGTGAAATTG 


CTGGGCTGCT 


4 80 


ACAGATCAGG 


AACTCACTGC 


TTCCTCATAG 


GGGCAGCCGA 


CTTCACTGCT 


CTGCAACAGC 


540 


GACCACCCCT 


AGCGAGGCTT 


GAGATGCCTC 


TTGCCTCCTT 


AAGACTGAGG 


GAGACGCTTC 


600 


AGCTCTCACT 


CCACTGCCCC 


AAGTCCTCCA 


CAGCGCGGTG 


CCTGCTGCCT 


TC AC AC AG AG 


660 


CTGCAGGGGN 


AGGTCCTGTG 


TATCCGGCCT 


GCTGGACCAG 


CGCTGTGCAC 


AACCCTCCCA 


720 


TGGCAACAGT 


GGCTGCCCGG 


CCTGCACACT 


GGGCTTGGCA 


ACCTCGCTGT 


AGGTATTTAT 


780 


TCCCTCAGGA 


GTGACTGCAT 


TCTTTTCCCA 


TTTCCAGAAA 


ACTGATGCCA 


TTTACCTCAC 


840 


TATGAGGAGG 


AGGAGGAGGA 


GGAGGGTGGA 


GAGTGGTACA 


TTTTAAAATG 


TGCACTATTC 


900 


TCCCTAGGAC 


TCCCCCTCAA 


ATAACCCAGG 


AGGGACCATA 


CCAGCTCATT 


CCTGTGTATC 


960 


CCAAGCATAN 


GAGTAATCAT 


CCCACTCATG 


CTGAGTGTAT 


GGTGGCCATT 


AAGCCTGCCC 


1020 


* 

TGAACTGGCT 


TTACAACAAG 


GTGTTTGAGC 


ACACAGCACC 


GTCTTGCTGC 


CACCTTGGCC 


1080 


CCCTCCCTTG 


TGAGACCTCT 


GAGACACATT 


NAGGTCTCAC 


CTAAAAATCT 


CAGGATTTCT 


1140 


AGGCCCAAAN 


CGGTCCTAAA 


AAATTGTTCA 


GTCTGAACTC 


TCTAAGGTCA 


AGAGAAGAGG 


1200 
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TGGTTGCTCC CTCTAAGAAA CCACATGTTG CATGTACATC CTTAATTCCG GAAAGTCCAA 1260 

CAAACCTGCC CTGCTTAGCA ACACAAGCCG AGGTGGTACT CCTCTCACCC GGGCATTCTC 1320 

CAACACACCT GTTTGTCCAA ACAGCTTTGA TTTGTTTTTA TAGTTGGACC CCAGGTTCCC 1380. 

AGGAGGCTGG TTCAGGCCAT ATTCCAAATC CTCATCTGTG TGTGAGTGGC ATTCTTAGCC 144 0 

TAGCCTCCTT ACAGGGTGGA TACTATGATA CACAGCCAGG CTGTCCCAGT GGCTTTCAAT 1500 

ATTCTTTTGG TCCAGATAGT TCAGCCTCAG CACCAGTGTA GGCATCACAG GGTCAATTGT 1560 

CTTAGGAGTC ATGGAGAATT CATAGTTGGT AGCTACCTGG GCCTGGCCAG GGCTGACCA? 1620 

AGACAAGGCA TCCCTCTGTG AACTCCTATT TTAATGCCAG CTTCCCAACA AATTTCTCAA 1680 

CTGCTCTTAC CAGCAGGTAT TTAAACTACT CAATAGAAAG TAACCCTGAA AATTAGGACA 1740 

CCTGTTCCCA AAAGACCCTT AAATAGGGGA AGTCCTTTCN CTGCTTGTGC ACAGCTGCTG 1800 

ATGTGGCAAC ATGAGGCCTG GGACAGGGGA CTGTCCTCTG CCCACTCTGG TAGCCTCACG 1860 

TAGCTTAACA ATCTGTCAGT AATACAATAC AAAACTTAAA CTTTCATACT GCGGTTCCAC 1920 

CCAGGAAGCT GTGTTCCCAA TCTGACCCGT GATTATGGGG CCACCTCAGA GGGNACCCAG 1980 

TGAGGGAATA TTTTGCCATC TGGGACTGTT GGTTGCTGGG GGCAGTGGCT ATGAGCTCAG 204 0 

TTAATAAACT CAAGCAGTTT CCTTCCAAAC ACACATGTCC TACTTAACGT GTCCAACAGA 2100 

GATGATCATA CTCATANGCT GCTAAAACAT TANTTTTATT TTGAGAAAAG TCTATTCATG 2160 

TTCTTGGCCC ATGGAGTTTT CATTTNATTA NTTTATTTAT TTTGCAGAGA TGGAGTCTCA 2220 

CTATGTTGCT CAAGCTGGTC TCCAACTCCT GGGCTCAAGC GATCTTCCTA CTTTGGCCTT 2280 

TGAAAGCGCT GAGATTGCCT GTGTGAGCCA TCATGGGGGC TCACTGGCCC ACTGATTAAT 234 0 

CAGATTAATT GTTTTTTGCT ATTGAANTTG TTTGACTTCC TTGTATATTC GGATATTTAC 2400 

CCATTCTAAC ACGTAGGGTT TGCAAATATT TTCTCTCATG TTCTGTGTTG CCTTTTCACT 24 60 

CAGTTGATGG TTTCCTTTGC TGTGCAGGTG CTTTAGTGTT CAACGCAGCC CCGCTTGTCT 2520 

ATTTTCCATT TTATTGCCTG TCCCTTTGAT GTCATAGCCA AGAAATAATT GCCCAGATTA 2580 

ATGTCAAAAA GCTTTATCCC TATATATTCT TCTAGTAGTT TATGGTTTCA GATCTTATGT 2640 

TTAGGTCTTC AATCCATTGA GTTGATTTTT GTATGTGGTA TAAGAAAAAA GACCACATGT 2700 

ATACATATCT CAAATTCTAA GGTAGTATAT ATTAGACACA TACAATGTGT CTATTTACAC 2760 

ACATTGAGCT GAAAATAATA AACATATTTT TATCTTTCAA TCAACTCTAT CTCTATCTCA 2820 
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CTGAACTTGT TTCACCTATA GCCTGATGAG GTTGCTGTCC TCTCTACCCC AGCTCCTATA 2880 

GGAGACTGCT CATCCCCTAA CCTCAAAAAC CCCTTCATGA GGGTGATAAT GCCCTTGAAT 294 0 

CCTGCAATCA ATTAGTTCTC TACTACAGTG GAATTCAGGT CTGTTATGAG GCTCTGCATC 300O 

TCTGMGAGA AGAGCTCTCA TTTTCAGAAA ATAAGCAGGA TTTATTCCCT GAAATTACTC 30 GO 

AATTAAATCA CTGTTTCGAT TACTTTTTGC AATATTAAAA GTAAATATTT AAACAGGTAA 3120 

AAACAGAAAT AATGGTAGGG TCCTTATCAT CACCGTGAAT TCCAAGCTAG CATAGACACT 3180 

AAACCTAGAG ATTCACACTA GAATGAAAGC TGGGAGAGCA GAGGAGTCTC AGAAGGATGT 324 0 

GG AGGCCAAT GG AC ACCTGC . AACCTCTCC A ACGAAATGCC TACCTCCTCT CACTGCAGCA .3300 

TCCATCTCTG AGCCTTCTCG CAGCAGAGCT ATAAATTCAG CCTGGCTCCT CCGTTCCCAC 3360 

ACATCCACTC CTGCTCTCCC TCCTCTCCTC CAGGTGACTA CAGTTATGAG GACCCTCACC 3420 

CTCCTCTCTG CCTTTCTCCT GGTGGCCCTT CAGGCCTGGG CAGAGCCGCT CCAGGCAAGA 34 80 

GCTCATGAGA TGCCAGCCCA GAAGCAGCCT CCAGCAGATG ACCAGGATGT GGTCATTTAC 3540 

TTTTCAGGAG ATGACAGCTG CTCTCTTCAG GTTCCAGGTG AGAGATGCCA GCATGCAGAG 3600 

CT AC AG ACT A GACAGAAGGA CAGGAGACAG GCTCTGGAAT TGGATCTCAG TGGCAGATGT 3G60 

CACTTAGGTG GCTATACTTA ACATCTCTGG TCCTGGATTT TCTCATATCT AAATGGAATA 37 20 

GAGAACCAAA GAAATCTAAG AGATTTTTCT TTCTCCAAAA ACTTGATTCC AAGATATGAC 3780 

TGTGAAATTC ACTAGATTTA AGATATAAGG AGATGCTACC TAGTTCCTTC TGGAGCCAGA . 384 0 

CAAACAAGCT TAAGTATATA GGAAAATATT TCACCCTGTC TATATAGGAG GTTTTAGAAC 3900 

CTGGAGAGGA GCCTAAGAAT GTGTTCAGGT GTGTGTGTGA TGGGCAGGAA TGCAGAAAAG 3960 

TGAAGCAAAG GAGAATGAGT CTCGAATCCT GTGTGACCAG CACTGCTCTG TGTATTTATT 4020 

CCTATTGACT GAGATTGTTT GTGCTACCGG CTGTAATACA GCCAACATCA CTCATCAGCC 4080 

AACATGTGAC TTCTCCAAGA TTCCCTTTAC CACCCACTGC TGNACCCCGT ACTCAGTTTC 414 0 

TGATGCTCTC TCTGGGTCCC CAGGCTCAAC AAAGGGCTTG ATCTGCCATT GCAGAGTACT 4200 

ATACTGCATT TTTGGAGAAC ATCTTGGTGG GACCTGCTTC ATCCTTGGTG AACGCTACCC 4260 

AATCTGCTGC TACTAAGCTT GCAGACTAGA GAAAAAGAGT TCATAATTTT CTTTGAGCAT 4 320 

TAAAGGGAAT TGTTATTCTT ATACCTTGTC CTCGATTTCC TGTCCTCATC CCAAATAAAT 4 380 

ACTTGGTAAC ATGATTTCCG GGTTTTTTTT TTTTT 4 415 
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(2) INFORMATIONS POUR IA SEQ ID NO: 2: 

(i) CARACTERISTIQUES DC LA SEOUENCE: " 

(A) LONGUEUR: 453 PAIRES DE BASE 

iBJ TYPE: NUCLEOTIDE 

(C) NOMBRE DE BRINS: DOUBLE 

(D) CONFIGURATION: LINEAIRE 

(ii) TYPE DE MOLECULE: ADNc 

(vi) ORIGINE: 

(A) ORGANISME: Homo sapiens 

(xi) SEQUENCE DESCRIPTION: SEQ ID NO: 2: 

CTCTGCCCAC TCTGGTAGCC TCACGTAGCT TAACAATCTG TGACTACAGT T ATG AGG 57 

Met Arg 
1 

ACC CTC ACC CTC CTC TCT GCC TTT CTC CTG GTG GCC CTT CAG GCC TGG 105 
Thr Leu Thr Leu Leu Ser Ala Phe Leu Leu Val Ala. Leu Gin Ala Trp 
5 10 15 

GCA GAG CCG CTC CAG GCA AGA GCT CAT GAG ATG CCA GCC CAG AAG CAG 153 
Ala Glu Pro Leu Gin Ala Arg Ala His Glu Met Pro Ala Gin Lys Gin 
20 25 30 

CCT CCA GCA GAT GAC CAG GAT GTG GTC ATT TAC TTT TCA GGA GAT GAC 201 
Pro Pro Ala Asp Asp Gin Asp Val Val lie Tyr Phe Ser Gly Asp Asp 
35 40 45 50 

AGC TGC TCT CTT CAG GTT CCA GGC TCA ACA AAG GGC TTG ATC TGC CAT 249 
Ser Cys Ser Leu Gin Val Pro Gly Ser Thr Lys Gly Leu lie Cys His 

55 .60 6.5 

TGC AGA GTA CTA TAC TGC ATT TTT GGA GAA CAT CTT GGT GGG ACC TGC 297 
Cys Arg Val Leu Tyr Cys lie Phe Gly Glu His Leu Gly Gly Thr Cys 

70 75 80 

TTC ATC CTT GGT GAA CGC TAC CCA ATC TGC TGC TAC TAA GCTTGCAGAC 346 
Phe lie Leu Gly Glu Arg Tyr Pro lie Cys Cys Tyr * 
85 90 95 

TAGAGAAAAA GAGTTCATAA TTTTCTTTGA GCATTAAAGG GAATTGTTAT TCTTATACCT .4 06 

TGTCCTCGAT TTCCTGTCCT CATCCCAAAT AAATACTTGG TAACATG 453 
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(2) INFORMATIONS POUR LA SEQ ID NO: 3: 

■ 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 94 ACIDES AMINES 
(D) TYPE: AC IDE AMINE 

(C) NOMBRE DE BRINS: SIMPLE 

(D) CONFIGURATION: LINEAIRE 

(ii) TYPE DE MOLECULE: PROTEINE 

(vi) ORIGINE: 

(A) ORGANISME: Homo sapiens 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: PEPTIDE SIGNAL 

(B) EMPLACEMENT: 1. .19 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: REGION PRO 
(0) EMPLACEMENT: 20.. 63 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: PEPTIDE MATURE 

(B) EMPLACEMENT: 64.. 94 

(xi) SEQUENCE DESCRIPTION: SEQ ID NO: 3: 



Met Arg Thr Lou Thr Leu Leu Ser Ala Phe Leu Leu Val Ala Leu Gin 
1.5 10 15 

Ala Trp Ala Glu Pro Leu Gin Ala Arg Ala His Glu Met Pro Ala Gin 

20 25 30 

Lys Gin Pro Pro Ala Asp Asp Gin Asp Val Val He Tyr Phe Ser Gly 
35 .40 45 

Asp Asp Ser Cys Ser Leu Gin Val Pro Gly Ser Thr Lys Gly Leu He 
50 55 60 

Cys His Cys Arg Val Leu Tyr Cys He Phe Gly Glu His Leu Gly Gly 
65 70 75 80 

Thr Cys Phe He Leu Gly Glu Arg Tyr Pro He Cys Cys Tyr 

85 90 
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(2) INFORMATIONS POUR LA SEQ ID NO: 4: 

(i) CARACTERISTIQUE5 DE LA SEQUENCE : 

(A) LONGUEUR: 19 ACIDES AMINES 

(D) TYPE: AC IDE AMINE 

(C) NOMDRE DE DRINS: SIMPLE 

(D) CONFIGURATION: LINEAIRE 

(ii) TYPE DE MOLECULE: PEPTIDE SIGNAL 

(vi) ORIGINE: 

(A) ORGANISME: Homo sapiens 

(xi) SEQUENCE DESCRIPTION: SEQ ID NO: 4: 



Met Arg Thr Leu Thr Leu Leu Ser Ala Phe Leu Leu Val Ala Leu Gin 
1 5 10 15 

Ala Trp Ala 



(2) INFORMATIONS POUR LA SEQ ID NO: 5: 

(i) C ARACT ER 1 5 T I QU ES DE LA SEQUENCE: 

(A) LONGUEUR: 44 ACIDES AMINES 

(B) TYPE: AC IDE AMINE 

(C) NOMDRE DE BRINS: SIMPLE 

(D) CONFIGURATION: LINEAIRE 

(ii) TYPE DE MOLECULE: REGION PRO 

(vi) ORIGINE: 

(A) ORGANISME: Homo sapiens 

(xi) SEQUENCE DESCRIPTION: SEQ ID NO: 5: 



Glu Pro Leu Gin Ala Arg Ala His Glu Met Pro Ala Gin Lys Gin Pro 
1 5 10 15 

Pro Ala Asp Asp Gin Asp Val Val He Tyr Phe Ser Gly Asp Asp Ser 
.20 25 30 

Cys Ser Leu Gin Val Pro Gly Ser Thr Lys Gly Leu 
35 40 
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(2) INFORMATIONS POUR LA SEQ ID NO: 6: 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 31 ACIDES AMINES 

(B) TYPE: AC IDE AMINE 

(C) NOMBRE DE DRINS: SIMPLE 

(D) CONFIGURATION: LINEAIRE 

* « 

(ii) TYPE DE MOLECULE: PEPTIDE MATURE 

(vi) ORIGINE: 

(A) ORGANISME: Homo sapiens 

(xi) SEQUENCE DESCRIPTION: SEQ ID NO: 6: 



He Cys His Cys Arg Val Leu Tyr Cys lie Phe Gly Glu His Leu Gly 
1 5 10 15 

Gly Thr Cys Phe He Leu Gly Glu Arg Tyr Pro He Cys Cys Tyr 

20 25 30 
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